音声分析

音声分析（おんせいぶんせき、Speech analysisまたはVoice analysis）とは、人間の音声をマイクロフォンとAD変換器によりデジタル信号として記録し、スペクトラムアナライザなどを用いて分析をすることである。音声分析により得られる基本周波数、サウンドスペクトログラムなどを特徴量として、音声認識、音声合成などに応用される。

手法

初歩的な手法は、数秒毎に、スペクトラムを記録し、X軸に周波数、Y軸にレベル、Z軸に時間を与えて、これをディスプレイ上に表示させる事で、解析のための情報を得るものである。比較的安価な測定器（たとえば高速フーリエ変換）にもこの機能があり、簡単で、また、素人受けしやすいため、テレビ番組などの解析シーンで多用されているが、実際には基音（第1フォルマント）の周波数変化程度しかわからないため、慌てたり驚いたりした事を類推することができる程度で、人物の特定などをすることはできない。

DSPを使用して、基音の変化分を修正しつつ、第2フォルマント、第3フォルマントの量とその広がりを追跡する事で、音を作られている環境を調べる手法がある。音声合成装置にこのファクターを投入する事で、より自然な音声を作り出すことができる。

また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。

限界

主として、音声の発生をシミュレートしたもの、音声の特徴をシミュレートしたものがあるが、いずれも安定したものではないため、指紋のように犯罪捜査で使用する事はできない。また、音声分析をしている研究者も玉石混淆状態となっているため、技術水準がどの程度なのかということについても、わかりにくくなっている。

手法

限界

関連項目