音質

音質（おんしつ、英: sound quality）とは音や声の品質を表し、多くの場合電子機器などのオーディオ出力や音声出力の良し悪しの意味で用いられる。品質の内容はアプリケーションにより異なり、高音質のオーディオ機器では聴感上の原音への近さが、電話では明瞭度や了解度が重要になる。

音質は、人間が実際に音を聞いて判断する主観評価や、音の何らかの性質を測定して決める客観評価で定量化することができる。音の物理的特性だけではなく人間の聴覚システムの特性が音質に大きな影響を与えるため、主観評価が音質評価の基本になるが、多くの評価者や専用の評価設備が必要で時間・コスト共に掛かり環境や評価者による評価のばらつきがあるため、音の物理的特性から主観評価値を推定する様々な客観品質評価法が研究されている。

概要[編集]

音は以下の3つの側面があり^[1]、音質はそれらの相互作用により決まる。

物理信号としての側面
聞く人間の聴覚心理学的な側面
音声や音楽など音の集まりで表された表現という側面

音質に関係する物理量として、古典的には以下のものがよく用いられている。

音質はこれらの物理量だけでは決まらない。例えば、AACやMP3などのオーディオ圧縮方式で符号化された音は、聴感上全く感じないにもかかわらず、元の信号に対する物理的なSN比が非常に低いものがある^[2]。これは圧縮の際に知覚の特性を利用し人間に聞こえにくいよう符号化の際の雑音や歪みを制御しているためである。このようなシステムの音質は物理量のみでは評価できず、聴覚心理学的特性や対象となる音声や音楽の特性を反映した評価が必要になる。

主観評価と客観評価[編集]

音質を比較・管理するためには定量化する必要がある。定量化の方法として主観評価と客観評価がある。

音質を人間が実際に音を聞いて判断する方法が主観評価（subjective assessment）で、人間が感じる品質を聴覚心理実験によって直接測定する。音質は本来主観的なものであり ^[3]、人間が直接判断するという点で音質評価の基本となる評価法である ^[4]^[3]。主観評価法として、複数の評価者が品質を「非常に良い」～「非常に悪い」の5段階で評価し平均を求める平均オピニオン評点（mean opinion score、MOS）がよく使われる。

主観評価は品質を直接測定できるが、試験環境の違いや評価に使用する音源（音声、音楽）、評価者によって評価がばらつく欠点がある。

試験環境での周囲騒音や室内反響条件、周波数レスポンス、音圧レベルなどは同じ条件にする必要があり、例えば音圧レベルを大きくしただけでも人間の耳の特性（等ラウドネス曲線）のため低音が豊かに感じ^[5]、全く同じ機器でも評価が上がることがある。

また、評価対象になる音の組み合わせや順序にも注意する必要があり、同じ音であっても評価試験で使用する他の音の質に悪いものが多ければ評価が高くなり、逆に他の音の質が全体的に高ければ評価は低くなる^[4]。音質の評価は使用する音の内容によっても影響を受け、評価に使用する音楽のジャンル（クラシック、ロック、ポップスなど）によって同じ環境でも評価が異なることはよく知られている^[6]。

主観評価を適切に行うためには、以下のことに留意する必要がある。

多数の評価者を用意しばらつきの影響を減らす。（国際的な品質評価試験では通常24名以上の評価者が必要^[4]）
必要に応じ、ばらつきを少なくするために評価者のトレーニングを行ったり、経験者や専門家(音響技術者など)が評価を行う。
専用の評価設備を使い、周囲騒音、室内反響条件、周波数レスポンス、音圧レベル、リスニングポジションなどを統一する。
評価に使用する音源（音声、音楽）を統一する。

主観評価は、十分な評価者数と専用の評価設備を用意することで人間の聴覚特性を反映した信頼性の高い評価結果を得ることができるが、多大な労力・時間と経費が必要になるという問題点がある。

客観評価（objective assessment）は、音のさまざまな物理的特徴から主観評価値を推定する手法で、入力となる信号から信号処理技術を用いて人間の聴感特性を考慮した特徴パラメータを抽出し、特定のアルゴリズムを用いて評価値を求める。客観評価は以下のような特徴を持つ^[4]。

多くの評価者や専用の評価設備が不要になり、時間と経費が削減できる。
同じアルゴリズムと音源（音声、音楽）を使用すれば必ず同じ評価値を得られ、また異なる場所での評価値との比較が可能。

どの物理的特徴を用いどのようなアルゴリズムで判断するかは、評価対象としたい品質（明瞭度、音の自然さ、聴感上の雑音や歪みなど）に依存するため、客観評価の方法は対象となるアプリケーションごとに異なる。

以下に主観評価と客観評価の特徴をまとめる。

	主観評価	客観評価
総合性・汎用性	○	×
コスト	×	○
再現性	×	○
自動化	×	○

品質評価法[編集]

電子機器や通信機器などで扱う音は、大きく分けて電話などでの音声と、放送やオーディオ機器での音楽などのオーディオ信号とに分類できる。それぞれに対し国際標準化団体の国際電気通信連合（ITU）が以下のような主観品質評価法と客観品質評価法を勧告しており、音質の評価のために使われている。

主観品質評価法（音声）
規格番号	名称
ITU-T P.800	Methods for subjective determination of transmission quality
ITU-T P.830	Subjective performance assessment of telephone-band and wideband digital codecs

主観品質評価法（オーディオ）
規格番号	名称
ITU-R BS.1284	General methods for the subjective assessment of sound quality
ITU-R BS.1116-1	Methods for the subjective assessment of small impairments in audio system including multichannel sound systems
ITU-R BS.1534 (MUSHRA)	Method for the subjective assessment of intermediate quality levels of coding systems (MUSHRA)

客観品質評価法（音声）
規格番号	名称
ITU-T P.563	Single-ended method for objective speech quality assessment in narrow-band telephony applications (no-reference algorithm)
ITU-T P.861 (PSQM)	Objective quality measurement of telephone-band (300-3400 Hz) speech codecs
ITU-T P.862 (PESQ)	Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs

客観品質評価法（オーディオ）
規格番号	名称
ITU-R BS.1387-1 (PEAQ)	Method for objective measurements of perceived audio quality

主観品質評価法（音声）[編集]

主観品質評価として最も一般的なものは平均オピニオン評点（MOS）で、音声の全般的な主観品質評価法として ITU-T勧告 P.800 で定義されている。複数の評価者が品質を「非常に良い（Excellent）」～「非常に悪い（Bad）」の5段階に評価し、全員の平均（MOS値）を求める。ITU-T勧告 P.800 には MOS 以外に DMOS、CMOS が定義されている ^[7]。

MOS （Mean Opinion Score）：絶対範疇尺度法（Absolute Category Rating、ACR）を使用

評価対象音声を聴いて5段階の絶対評価を行う。

MOS の評価カテゴリ
カテゴリ	評点
非常に良い（Excellent）	5
良い（Good）	4
普通（Fair）	3
悪い（Poor）	2
非常に悪い（Bad）	1

DMOS（Degradation Mean Opinion Score）：妨害範疇尺度法（Degradation Category Rating、DCR）を使用

リファレンス音声（原音）と評価対象音声とを聴き比べて5段階の相対評価を行う。リファレンス音声の0.5～1秒後に評価対象音声が聴こえる。

DMOS の評価カテゴリ
カテゴリ	評点
劣化が全く認められない（Degradation is inaudible）	5
劣化が認められるが気にならない（Degradation is audible but not annoying）	4
劣化がわずかに気になる（Degradation is slightly annoying）	3
劣化が気になる（Degradation is annoying）	2
劣化が非常に気になる（Degradation is very annoying）	1

CMOS（Comparison Mean Opinion Score）：比較範疇尺度法（Comparison Category Rating、CCR）を使用

リファレンス音声と評価対象音声とを聴き比べて7段階の相対評価を行う。リファレンス音声と評価対象音声の順番はランダムに変化する。

CMOS の評価カテゴリ
カテゴリ	評点
非常に良い（Much Better）	3
良い（Better）	2
やや良い（Slightly Better）	1
ほぼ同じ（About the Same）	0
やや悪い（Slightly Worse）	-1
悪い（Worse）	-2
非常に悪い（Much Worse）	-3

電話を対象とする音声の評価法としては、受聴品質のみを対象とする受聴オピニオン評価法（listening-opinion test）と、遅延やエコーなども含めた会話での品質を対象とする会話オピニオン評価法（conversation-opinion test）とに分けることができる。いずれを評価する場合でも評価の流れは変わらない。

これ以外に、電話用のデジタル音声コーデックの主観評価値の具体的な測定方法として ITU-T勧告 P.830 が定義されている。

主観品質評価法（オーディオ）[編集]

ITU-R BS.1284[編集]

平均オピニオン評点はオーディオの場合も使われ、オーディオ品質の評価全般についての主観評価法として ITU-R勧告 BS.1284 で定義されている。これは同様の主観評価法 ITU-R勧告 BS.562-3 の改定版で、音声の場合と同様 MOS、DMOS、CMOS があり評価カテゴリも同じである。

評価対象となるパラメータとして以下のものが定義されている ^[8]。これらの属性はさらにいくつかの細かいサブパラメータに分類されている。

Spatial impression（空間的印象）

演奏が適切な空間的環境で行われているように見える。（表現する言葉の例：残響のある/ドライな、直接的/間接的、大きな部屋/小さな部屋）

Stereo impression（ステレオ感）

サウンドイメージが正しくて適切な方向分布を持つように見える。（表現する言葉の例：広がった/狭い、正確な/不正確な）

Transparency（透明性）

演奏の全ての詳細がはっきりと感じられる。（表現する言葉の例：クリアな/濁った）

Sound balance（音のバランス）

個々の音源が全体のサウンドイメージの中で適切なバランスにあるように見える。（表現する言葉の例：音源が強すぎ/弱すぎ、音が圧縮された/自然な）

Timbre（音色）

各音源の異なったサウンド特性の正確な描写。（表現する言葉の例：ブーミーな/シャープな、暗い/軽い、暖かい/冷たい）

Freedom from noise and distortions（雑音や歪みの無さ）

電気雑音、音響雑音、騒音、ビット誤り、ひずみなどの様々な妨害現象の不在（表現する言葉の例：妨害が認められる/認められない）

Main impression（主印象）

全体のサウンドイメージと様々なパラメータの相互作用を考慮した各パラメータの主観的な平均。

ITU-R BS.1116[編集]

劣化が少ない高品質のオーディオシステムや多チャンネルシステム向けの主観評価法として ITU-R BS.1116-1 が定義されている。BS.1116-1 は DMOS と同様の5段階の評価カテゴリを用いて小数点以下1桁までの評点を決める。

BS.1116-1 の評価カテゴリ
カテゴリ	評点
わからない（Inaudible）	5.0
わかるが気にならない（Audible but not annoying）	4.0
やや気になる（Slightly annoying）	3.0
気になる（Annoying）	2.0
非常に気になる（Very annoying）	1.0

試験は隠れ基準付き3刺激二重盲検法（double-blind triple-stimulus with hidden reference）で評価を行う。この方法は、リファレンス音（原音）と2つの評価対象音の合計3つの音を聴き比べ、2つの評価対象音の相対評価を行う。2つの評価対象音のどちらかにはランダムにリファレンス音（隠れ基準、hidden reference）が含まれ、必ず一方に 5.0 の評点を付ける。この方法は毎回3つの音を比較するため時間がかかるが、僅かな劣化でも検出できるため劣化が少ないシステムの評価に向いている^[9]。

MUSHRA[編集]

中品質のオーディオ圧縮システムの品質の主観評価法として ITU-R BS.1534 が定義されている。BS.1534 で定義されている評価方法は MUSHRA法（MUltiple Stimuli with Hidden Reference and Anchor）と呼ばれており、AAC、HE-AAC など様々なオーディオ用コーデックの評価・比較に使われている。

MUSHRA法では、一度にリファレンス音（原音）と複数の評価対象音、隠れ基準（リファレンス音）、隠れアンカー（最も劣化の大きな音）を提示でき、評価者が自由に切り替えて聞くことができる。リファレンス音以外の提示の順番はランダムに変わり、どれが隠れ基準/隠れアンカーかも分からない。評価は5段階の連続品質尺度を用い、平均オピニオン評点の「非常に良い（Excellent）」～「非常に悪い（Bad）」までの段階を 100 から 0 までの連続値で表す。

中品質から低品質の音を評価する場合、評価対象音とリファレンス音との差が大きくなるのに対し、異なった評価対象音の差は相対的に小さくなる。異なったコーデックの音を比較する場合など、BS.1116 のようリファレンス音との差のみで評価すると誤差が大きくなる可能性がある。MUSHRA法ではリファレンス音との比較だけでなく異なったコーデック音の間の比較も評価者が自由に行えるため、正しい評価が容易になる^[10]。また、隠れアンカーにより劣化した音の聞こえ方が具体的に分かり、劣化を区別をしやすくなる^[10]。隠れ基準（リファレンス音）が評価対象音に含まれるため、必ず1つの評価対象音は 100 の評点になる。

隠れアンカー（最も劣化の大きな音）として、原音（リファレンス音）に 3.5kHz のローパスフィルターを通し高音をカットした音を用いる。隠れアンカーは複数含まれてもよく、7kHz のローパスフィルターを通した音、雑音を加えた音、ステレオ感を無くした音などが使われる。

客観品質評価法（音声）[編集]

平均オピニオン評点に代表される主観品質評価法はコスト・時間が掛かるという欠点があり、主観評価と対応の良い音声の客観品質評価法は古くから研究されてきた。最も基本的な評価方法として、元の音声信号と通信回線などを通過してきた信号とから信号対雑音比（signal-to-noise ratio、SNR）を求める方法と、短い時間単位で測定した信号対雑音比を長時間の音声区間で平均したセグメンタルSNR（SSNR）があり、単純なアルゴリズムで値が求まるため以前から使われてきた。求まる値は、音声波形を変えない特定のシステムでは主観評価と相関関係にあるが、複雑な音声符号化方式を使うもっと一般的なシステムでは主観評価値とかけ離れたものとなってしまう欠点がある。

また、人間がフォルマントなど周波数領域のパラメータで音声を認識していることを利用した、音声スペクトルの形状や形状を与えるパラメータによる歪みの評価も可能で、板倉-斎藤距離（Itakura-Saito distance）、LPC ケプストラム距離（linear predictive coding cepstral distance）などを用いたものが提案されている。

これらをさらに発展させ人間の様々な聴覚心理学上の特性を考慮したパラメータを用いた受聴品質の客観評価方法として、ITU-T P.861（PSQM、perceptual speech quality measure）と、それの改良版であるITU-T P.862（PESQ、perceptual evaluation of speech quality）がある。

PESQ[編集]

ITU-T P.862 で定義されている PESQ は電話などでの音声の受聴品質の客観評価を行うためのアルゴリズムで、その前身の PSQM を改良したものである。遅延やエコーなど会話品質での劣化要因は考慮されていない。 PESQ はリファレンス音声（原音）と評価対象音声とを入力とし、以下の2段階の処理により評価値を推定する。

知覚モデリング　：リファレンス/評価対象音声を人間の聴覚心理モデルに基き周波数領域でパラメータ化
認知モデリング　：パラメータ化した値から雑音や歪みなどの妨害値を計算し MOS 値にマッピング

ITU-T P.862 は 300-3400Hz の電話帯域の音声信号の評価を対象とする。同様のアルゴリズムを用い 7kHz の広帯域音声を対象とする勧告としてITU-T P.862.2 がある。

客観品質評価法（オーディオ）[編集]

オーディオの客観品質評価法として古くから使われてきたのは信号対雑音比や歪率だが、現代のデジタル信号処理を使った様々なオーディオ圧縮コーデックでは有効な評価方法ではない^[11]。そのため、音声の客観品質評価法と同様、オーディオでの新しい客観品質評価法が研究されている。ITU-R BS.1387-1 で定義されている PEAQ（perceived evaluation of audio quality）はその代表的なものである。

PEAQ[編集]

ITU-R BS.1387-1 で定義されている PEAQ はオーディオの客観評価を行うためのアルゴリズムである。デジタル放送やデジタル機器などで使用されているさまざまなビットレートのオーディオ圧縮コーデックの評価などを行うためのもので、それまでに提案されたいくつかのオーディオ客観品質評価法を研究して優れたところを1つにまとめたものである^[11]。ただしこの方法は主観品質評価を補完するためのものであって、正式なリスニング試験の代わりになるものではない^[11]。

PEAQ は、音声の客観品質評価法と同様、リファレンス音（原音）と評価対象音とを入力とし、以下の2段階の処理により評価値を推定する。

知覚モデリング　：リファレンス/評価対象音を人間の聴覚心理モデルにもとづき周波数領域でパラメータ化
認知モデリング　：パラメータ化した値の差からさまざまなモデル変数値を計算し劣化度合を求める

聴覚心理モデルとしては、FFTベースの耳モデルとフィルタバンクベースの耳モデルの2種類が定義されている。用途に応じ、FFTベースのみ、あるいはFFTベースとフィルタバンクベース両方のいずれかが使われる。

認知モデリングでは知覚モデリングの出力を用いて音質に関係するさまざまな聴感上のモデル変数値（16種類）が計算され、これらの値から人工ニューラルネットワークを用いて Objective Difference Grade（ODG、客観品質劣化度合）と呼ばれる最終的な劣化度合が計算される。 ODG は、BS.1116-1 のような主観品質評価法での評価値「わからない：評価値 5.0 」～「非常に気になる：評価値 1.0 」について、評価対象信号の主観的評価値からリファレンス信号の主観的評価値を引いた Subjective Difference Grade（SDG、主観劣化度合い）に対応するものである。SDG は以下の式で表される。

SDG=Grade_{SignalUnderTest}-Grade_{ReferenceSignal}

SDG 値は 0 ～ -4 までの値をとり、0 は劣化が分からず、-4 は劣化が非常に気になる状態を表す。

脚注[編集]

^ N. Rémy. Sound quality : a definition for a sonic architecture. Proc. 12th International Congress on Sound and Vibration, Lisbon. July 2005.
^ Ted Painter, Andreas Spanias. Perceptual Coding of Digital Audio. Proceedings of the IEEE, pp.451-513. 2000.
^ ^a ^b Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
^ ^a ^b ^c ^d “主観評価と客観評価”. 2010年6月15日閲覧。
^ Glen Ballou (ed). Handbook for Sound Engineers, Second Edition: The New Audio Cyclopedia. Focal Press, 1991. ISBN 978-0240803319.
^ 石川俊行, 降旗建治, 柳沢武三郎. 音楽再生時における物理的歪と音色の好みの関係. Technical report of IEICE. EA 102(398), pp.57-62, 2002. など参照のこと。
^ ITU-T 勧告 P.800: Methods for subjective determination of transmission quality
^ ITU-R 勧告 BS.1284: General methods for the subjective assessment of sound quality
^ ITU-R 勧告 BS.1116: Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems
^ ^a ^b G. Stoll, F. Kozamernik. EBU listening tests on Internet audio codecs. EBU TECHNICAL REVIEW. June, 2000.
^ ^a ^b ^c ITU-R 勧告 BS.1387: Method for objective measurements of perceived audio quality (PEAQ)

参考文献[編集]

Glen Ballou (ed). Handbook for Sound Engineers, Second Edition: The New Audio Cyclopedia. Focal Press, 1991. ISBN 978-0240803319.
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
Ted Painter, Andreas Spanias. Perceptual Coding of Digital Audio. Proceedings of the IEEE, pp.451-513. 2000.
N. Rémy. Sound quality : a definition for a sonic architecture. Proc. 12th International Congress on Sound and Vibration, Lisbon. July 2005.
G. Stoll, F. Kozamernik. EBU listening tests on Internet audio codecs. EBU TECHNICAL REVIEW. June, 2000.
“音声品質評価法（NTT技術解説）”. 2010年6月15日閲覧。
ITU-T 勧告 P.563: Single-ended method for objective speech quality assessment in narrow-band telephony applications (no-reference algorithm)
ITU-T 勧告 P.800: Methods for subjective determination of transmission quality
ITU-T 勧告 P.830: Subjective performance assessment of telephone-band and wideband digital codecs
ITU-T 勧告 P.861: Objective quality measurement of telephone-band (300-3400 Hz) speech codecs
ITU-T 勧告 P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs
ITU-T 勧告 P.862.2: Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs
ITU-T 勧告 P.862.3: Application guide for objective quality measurement based on Recommendations P.862, P.862.1 and P.862.2
ITU-R 勧告 BS.1116: Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems
ITU-R 勧告 BS.1284: General methods for the subjective assessment of sound quality
ITU-R 勧告 BS.1387: Method for objective measurements of perceived audio quality (PEAQ)
ITU-R 勧告 BS.1534: Method for the subjective assessment of intermediate quality levels of coding systems (MUSHRA)

外部リンク[編集]

ITU-T 勧告 ITU-T ウェブページ（英語）
ITU-R 勧告 ITU-R ウェブページ（英語）
Audio Quality University of Plymouth の音質リンク集（英語）

[Remy2005-1] N. Rémy. Sound quality : a definition for a sonic architecture. Proc. 12th International Congress on Sound and Vibration, Lisbon. July 2005.

[Painter2000-2] Ted Painter, Andreas Spanias. Perceptual Coding of Digital Audio. Proceedings of the IEEE, pp.451-513. 2000.

[Benesty2007-3] Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.

[NTT02-4] “主観評価と客観評価”. 2010年6月15日閲覧。

[Ballou1991-5] Glen Ballou (ed). Handbook for Sound Engineers, Second Edition: The New Audio Cyclopedia. Focal Press, 1991. ISBN 978-0240803319.

[Ishikawa2002-6] 石川俊行, 降旗建治, 柳沢武三郎. 音楽再生時における物理的歪と音色の好みの関係. Technical report of IEICE. EA 102(398), pp.57-62, 2002. など参照のこと。

[P800-7] ITU-T 勧告 P.800: Methods for subjective determination of transmission quality

[BS1284-8] ITU-R 勧告 BS.1284: General methods for the subjective assessment of sound quality

[BS1116-9] ITU-R 勧告 BS.1116: Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems

[Stoll2000-10] G. Stoll, F. Kozamernik. EBU listening tests on Internet audio codecs. EBU TECHNICAL REVIEW. June, 2000.

[BS1387-11] ITU-R 勧告 BS.1387: Method for objective measurements of perceived audio quality (PEAQ)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]