ソース・フィルタモデル

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

音声生成のソース・フィルタモデル (: Source-filter model; あるいは 音声生成モデル) とは、音声生成を ソースつまり音源 (声門など) と 線形音響フィルタ (声道および放射特性) で近似する準物理モデルで、音声合成だけでなく音声分析にも使用される。このモデルを使う時しばしば用いられる一つの重要な仮定は「ソースとフィルタの独立性」であり、その場合はより正確に「独立ソース・フィルタモデル」(independent source-filter model)[1]と呼ぶべきである。

このモデルはただの近似に過ぎないものの、比較的シンプルなので、応用例が多数ある。程度の差こそあれ、異なる音素はその音源とスペクトル形状の特性によって区別できる。発声された音 (例: 母音) は、(少なくとも) 一つの音源 —— (たいていは) 声門の周期的励起 —— を持ち、それは時間領域ではインパルス列、周波数領域ではハーモニクスとして近似でき、また舌の位置や唇の突き出し具合に依存したフィルタを持つ。他方、摩擦音は (少なくとも) 一つの音源を持つ —— 口腔を狭める事 (constriction) で生成される乱流騒音 (例: 正書法 (orthographically) で"s"や"f"で表現される音) である。有声摩擦音 ("z"や"v") は二つの音源を持つ —— 一つは声門で、もう一つは声門上部のくびれである。

ソース・フィルタモデルは音声合成音声分析の両方で使用され、また線形予測 (linear prediction) と関連している。モデルの開発は、その大部分が Gunnar Fant英語版 の初期の研究に拠っている —— もちろん他の人々、特に Ken Stevens英語版 も音声の音響分析や音声合成の基礎となるモデルに潜在的には寄与しているが。

音声生成のソース・フィルタモデルの実装において、音源または励起信号は、有声音については周期的インパルス列で、無声音についてはホワイトノイズで、しばしばモデル化される。声道フィルタは、最も単純な場合には全極フィルタ (all-pole filter) で近似され、その係数は再生される音声信号の平均二乗誤差を最小とする線形予測により得られる。励起信号をフィルタの伝達関数畳み込む事で、合成音声が得られる。

関連項目[編集]

参考文献[編集]

  1. ^ Martin Rothenberg (2008), “The Source-Filter Model Lives (if you are careful)” (PDF), Voice Foundation 37th Annual Symposium, May 28 to June 1, 2008, http://www.rothenberg.org/source-filter-lives/Source-Filter-Lives-paper-as-presented5.pdf