音声分析

音声分析（おんせいぶんせき、英: speech analysis）は音声を特徴量へ変換・表現することである^{[注 1]}。

概要[編集]

音声とは人の喉から言語として発せられた振動である。最も単純な表現として音声は波、すなわち振幅の時間変動で表される。一方で波には様々な表現が存在する。例えばフーリエ変換を介して周波数表現でも等価に表現できるし、STFTによりスペクトログラムとしても表現できる。このように波である音声を分析し異なる表現へ変換することを音声分析という。

音声分析により得られる音響特徴量にはスペクトログラム、基本周波数などが挙げられる。これらの音響特徴量は音声認識や音声合成の入力として利用される。

音響特徴量[編集]

音声分析で得られる特徴量は音響特徴量（英: acoustic feature, speech representation）と呼ばれる。音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。

非周期性指標[編集]

非周期性指標（英: aperiodicity）は音響信号の各周波数における非調波成分の割合である^[2]。有声音であれば声のかすれ具合に相当する^[3]。

手法[編集]

フーリエ変換に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってf_oやフォルマントの経時変化が得られる。

また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。

以下は特定の特徴量を得るために用いられる分析手法の一例である：

スペクトル包絡
- 線形予測符号化（LPC）
- ケプストラム法
非周期性指標
- D4C

Acoustic Unit Discovery[編集]

機械学習によりAcoustic Unit (AU) を得ることをAcoustic Unit Discovery; AUD という。典型的なAUDでは教師なし学習を用い、音声信号に繰り返し現れる単位（= AU）を抽出できるようモデルを学習する。学習方法やモデルによりAUがもつ特性は異なる（例: 音素に似た話者独立な特徴量、話者性を持つフォルマント的な特徴量）。AUは音声合成（unit-to-speech, speech resynthesis）や言語モデル（例: GSLM）に利用される。用途によりAUに求められる特性は異なる。

以下は具体的な手法の一例である。

教師なし学習^{[注 2]}
- 再構成ベース: VQ-VAE-WaveNet
- 自己教師あり学習ベース: CPC, wav2vec 2.0, HuBERT
ASRモデル

注釈[編集]

^ "音声分析合成システムは、音声の特徴を活用し、音声をパラメータとして表現する分析法、およびパラメータから合成する方法をまとめた方式を指す。" ^[1]
^ "Studies on unsupervised speech representation learning can roughly be divided into reconstruction and self-supervised learning methods." ^[4]

出典[編集]

^ 森勢将雅『音声分析合成』コロナ社〈音響テクノロジーシリーズ〉、2018年、53頁。ISBN 9784339011371。国立国会図書館書誌ID:029070892。
^ "aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal" Morise. (2016). D4C, a band-aperiodicity estimator for high-quality speech synthesis. Speech Communication, Volume 84, pp.57-65.
^ 森勢将雅「音声パラメータのデザイン : 知覚情報を操作可能な音声合成に向けて」『日本音響学会誌』第74巻第11号、日本音響学会、2018年11月、608-612頁、CRID 1390001288135088000、doi:10.20697/jasj.74.11_608、ISSN 03694232。
^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.