Direct Stream Transfer

Direct Stream Transfer (DST) はオランダのフィリップスが開発したロスレス圧縮方式で、CDよりも高音質のステレオと5.1chサラウンドのオーディオ信号を扱うことができる。

Direct Stream Transferはソニーとフィリップスが規格化したスーパーオーディオCD (SACD) で使用されている。

概要[編集]

Direct Stream Transfer (DST) はMPEG-4オーディオ (MPEG-4 Part 3) の一部として規格化されたオーディオ圧縮方式で、ISO/IEC 14496-3 Subpart 10で定義されている^[1]^[2]。MP3やAAC、Ogg Vorbisなどの非可逆圧縮方式と異なり、オリジナルのオーディオ信号をそのまま復元することができる。

スーパーオーディオCD (SACD) のための技術として開発され、対象とするのはDirect Stream Digitalの名称で呼ばれるオーバーサンプリングされた1ビットオーディオ信号で、CDの64倍である2.8224 MHzのサンプリング周波数が使用される。

このサンプリング周波数で2chステレオ信号と5.1chマルチチャネル信号の両方を4.7ギガバイトのディスクに格納するには容量が不足するため、圧縮が必要になる^[3]。DST方式はこのような場合に使用され、音楽などの一般的なオーディオ信号を1/2～1/3程度に圧縮することができる。

MPEG-4オーディオでの位置づけ[編集]

MPEG-4オーディオは多くのツールの組み合わせからなり、MPEG-4 DSTはオーディオ符号化ツール (audio coding tools) の1つであるロスレスオーディオ符号化ツール (lossless audio coding tools) に分類される^[2]。

同じカテゴリのツールとして、通常のPCM信号のロスレス圧縮を行うMPEG-4 ALS (audio lossless coding) や、MPEG-4 AACなどの汎用オーディオ符号化ツール (general audio coding tools) と組み合わせて使うMPEG-4 SLS (scalable lossless coding) がある^[2]。

アルゴリズム[編集]

DSTの符号化はフレーム化、線形予測、エントロピー符号化の3段階で行われる^[3]。

フレーム化では符号化の処理対象となる各チャネルの信号をそれぞれ1/75秒（2.8224 MHzのサンプリング周波数で37632ビット）単位に分割する。符号化の処理はこのフレーム単位で行う。フレーム単位の符号化により再生時のランダムアクセスが容易になり、また線形予測が行いやすくなる^[3]。

処理対象となる信号のサンプリング周波数は、CDのサンプリング周波数44.1 kHzの64倍以外に、スタジオなどでの使用のため128 / 256倍のより高い周波数が選択できる。サンプリング周波数が変わってもアルゴリズム自体は変わらない。

続いて線形予測フィルターを用い、線形予測の残差信号を求める。フレーム内の各サンプル間には相関があるため過去のサンプル値からある程度予測ができる。線形予測はそのような信号を効率的に表現するための手法で、予測可能な成分を少数の線形予測係数で表現する。予測しきれなかった残差成分のみを別に符号化することで、情報の圧縮を行う。残差の計算は線形予測フィルターの出力と元のサンプル値との排他的論理和 (EXOR) をとることで行う。

DSTで使われる線形予測の次数は1～128で信号の性質により決められる。線形予測係数は9ビット長の固定小数点の数値で表現される。

残った残差成分は、線形予測によりほとんどが "0" でわずかなサンプルのみが "1" になるため、エントロピー符号化を使い少ないビット数で表現でき、元の情報を失うことなくデータの圧縮ができる。符号化のアルゴリズムとしては、エントロピー符号化の一種である算術符号化 (arithmetic coding) を用いる。

復号はこれらの処理を逆に、算術符号化結果から残差信号を復元し、線形予測フィルターの出力と残差信号とから元のサンプル値を順次計算する。これらの処理を対象となる全てのチャネルのデータに行うことで、1フレーム分のサンプル値を復号する。

DSTによる圧縮率は対象となる信号の性質により変化し、符号化ビットレートも時間ごとに変わる。例えば、音楽での変化の激しい部分（パーカッションなど）は圧縮率が下がり、静かな部分では圧縮率が上がる。ポップス、ジャズ、クラシックのいくつかの録音での圧縮率平均の実測値は2.6～2.8である^[3]。これは2chステレオと5.1chマルチチャネルの両信号を1枚のディスクに格納した録音時間に換算すると74～78分に相当する^[3]。

DSTアルゴリズムのリファレンス実装は、ISO/IEC 14496-5:2001/Amd.10:2007で定義されている^[4]^[5]。

脚注[編集]

参考文献[編集]

Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
Erwin Janssen, Eric Knapen, Derk Reefman, Fons Bruekers. Lossless compression of one-bit audio, Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp.1020-1023 (vol.3), 2004.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.

外部リンク[編集]

Direct Stream Transfer (DST) - DAISy社 (Digital Audio Industrial Supply) のウェブページ（英語）
Description Lossless coding of oversampled audio - MPEG-4オーディオ仕様（英語）

[mpeg4audio2009-1] ISO/IEC (2009年). “ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio”. ISO. 2010年8月15日閲覧。

[mpeg4audio2009pdf-2] ISO/IEC (2009) (PDF), ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, ISO 2010年8月15日閲覧。

[Janssen2004-3] Erwin Janssen, Eric Knapen, Derk Reefman, Fons Bruekers. Lossless compression of one-bit audio, Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp.1020-1023 (vol.3), 2004.

[dst-reference-implementation-4] ISO/IEC (2007) (ZIP), ISO/IEC 14496-5:2001/Amd.10:2007 - Information technology -- Coding of audio-visual objects -- Part 5: Reference software -- Amendment 10: SSC, DST, ALS and SLS reference software, ISO 2010年8月15日閲覧。

[dst-reference-implementation-iso-5] ISO/IEC (2007), ISO/IEC 14496-5:2001/Amd.10:2007 - SSC, DST, ALS and SLS reference software, ISO 2010年8月15日閲覧。

[1]

[2]

[3]

[4]

[5]