音声合成

音声合成（おんせいごうせい、英: speech synthesis）とは、人間の音声を人工的に作り出すことである^[1]。

概要

ヒトは発声器官を通じて音声を生成しコミュニケーションをおこなう。この音声を人工的に生成するタスクが音声合成である。合成された音声を合成音声（ごうせいおんせい）と呼ぶ。

音声合成は様々な手法で実現できる。ある種の楽器は人の声に似た音を発し、また人の喉を模倣した機械に風を吹き込むことで人の声に似た音が生成できる。デジタル計算機を用い、音声情報処理の一種としてデジタルに音声を合成することもできる。2021年現在では計算機を用いた手法により、実音声と聞き分け不可能な音声合成が可能になっている。

音声には言語内容・話者性・感情など様々な情報が含まれており、音声合成では望んだ属性をもつ合成音声の生成が求められる^[2]。生成にあたり望む属性を外部から入力し生成がおこなわれる。テキスト（文章）を入力し望む言語内容の音声を生成するタスクは テキスト音声合成（英: Text-To-Speech; TTS）と呼ばれる。歌声を合成するものは特に歌声合成と呼ばれる。また、音声を別の個人あるいはキャラクターの音声に変換する手法は声質変換と呼ばれる。

歴史

現代的な信号処理手法が発明されるずっと以前から、西アフリカのトーキングドラム等のように音声を模倣する試みがなされてきた。

1779年には、クリスティアン・クラッツェンシュタインにより母音を発声できる機械が製作された^[3]。この流れはふいごを使った機械式音声合成器を作ったオヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文^[4]を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。1837年、チャールズ・ホイートストンがフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年には、M. FaberがEuphoniaを製作した。ホイートストンの機械は、1923年にPagetが再現している^[5]。

1930年代、ベル研究所のホーマー・ダドリー（Homer Dudley）は通信用の電子式音声分析・音声合成器であるボコーダー（vocoder、voice coderの略）を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型の音声合成器であるvoderを製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代には、ハスキンズ研究所のフランクリン・S・クーパー（Franklin S. Cooper）らがPattern playbackという機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン（Alvin Liberman）らは、これを音声学の研究に利用した。

コンピュータを使った最初の音声合成器は1950年代終盤に開発され、最初のテキスト音声合成器は1968年に開発された。1961年、物理学者のJohn Larry Kelly, Jr.とLouis Gerstmen^[6]は、ベル研究所でIBM 704を使った音声合成を行った。そしてデイジー・ベルという歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークはこのデモを聴いて感銘を受け、2001年宇宙の旅でHAL 9000が歌うクライマックスシーンが生まれた^[7]。

1999年には、東京工業大学のチームにより統計的な生成モデルを用いた音声合成の先駆けである隠れマルコフモデル音声合成が提案された。2013年にはGoogleのチームにより深層学習（ディープラーニング）に基づいた音声合成が提案され、2017年にはテキスト処理部が不要なend-to-endテキスト音声合成が提案された。

用途

三重県御浜町の防災行政無線の放送。

防災行政無線における使用例1

山梨県上野原市の防災行政無線の放送。

防災行政無線における使用例2

これらの音声や映像がうまく視聴できない場合は、Help:音声・動画の再生をご覧ください。

音声合成は様々なサービスで利用されている。例えば、コールセンターの自動応答、ATMや複合機などの電子機器、工場などでの構内放送、防災無線^{[† 1]}、駅・バスターミナル・空港などでの車内放送や案内放送^{[† 2]}、カーナビゲーション、電子辞書^{[† 3]}、家電^{[† 4]}、スマートフォンやスマートスピーカーなどのアプリケーション^{[† 5]}や音声アシスタント^{[† 6]}^{[† 7]}^{[† 8]}^{[† 9]}^{[† 10]}、エンターテインメントロボット^[8]^{[† 11]}、アニメ^{[† 12]}、テレビ番組^{[† 13]}^{[† 14]}・コミュニティ放送^[9]・ハイウェイラジオ^{[† 15]}などの放送分野、電子書籍の読み上げ^{[† 16]}などである。そのほか、音声合成は視覚障害者あるいは読字障害（ディスレクシア）者などのためにスクリーンリーダーとして使用されている。また、病気やその治療などのために発声または音声発話が困難な人が、自分の声の代わりに使用することもある^{[† 17]}^{[† 18]}。

理論

テキスト音声合成

テキスト音声合成はテキスト（文章）を音声に変換するタスクである。この変換は以下の問題と捉えることができる^[10]^[11]。

テキストとそれに対応する音声波形の組があるとき、任意に与えられたテキストに対応する音声波形を求めよ。

この問題に対する解法の1つが統計的機械学習である。すなわち音声データベース（コーパス）に基づき波形生成の確率モデルを学習し合成器とするアプローチである。人の音声生成において、同一話者が同じ文を何回か読み上げたときに全く同一の波形が得られることは極めて稀である。このように音声生成過程および音声信号は非決定的な性質をもち、確率的な枠組みは有効である。

この枠組みでは、音声データベース（コーパス）に存在するテキストおよび音声波形をそれぞれ ${\mathcal {W}}$ および $\mathrm {X}$ 、与えられた任意のテキストを ${\boldsymbol {w}}$ 、合成すべき音声を ${\boldsymbol {x}}$ としたとき、 ${\boldsymbol {x}}$ の予測分布 $p({\boldsymbol {x}}|{\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})$ を ${\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}}$ から推定し、この予測分布から ${\boldsymbol {x}}$ をサンプリングする^[12]。分布モデルはしばしば補助変数と近似を導入して複数のステップに分割される。

パイプラインモデル

例えば補助変数として言語特徴量と音響特徴量を導入し次のように定式化する。音声信号の性質を表す音響特徴量を ${\mathcal {O}}$ （データベース）および ${\boldsymbol {o}}$ （合成）、テキストの性質を表す言語特徴量を ${\mathcal {L}}$ （データベース）および ${\boldsymbol {l}}$ （任意に与えられたテキスト）、言語特徴量が与えられた際の音響特徴量の生起確率を表現するパラメトリックな音響モデルを $\lambda$ としたとき、予測分布は以下のように分解できる。

{\begin{aligned}p({\boldsymbol {x}}\mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})&=\iiint \sum _{\forall {\boldsymbol {l}}}\sum _{\forall {\mathcal {L}}}p({\boldsymbol {x}},{\boldsymbol {o}},{\boldsymbol {l}},{\mathcal {O}},{\mathcal {L}},\lambda \mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})d{\boldsymbol {o}}d{\mathcal {O}}d\lambda \\&=\sum _{\forall {\boldsymbol {l}}}\sum _{\forall {\mathcal {L}}}\iiint p({\boldsymbol {x}}\mid {\boldsymbol {o}})p({\boldsymbol {o}}\mid {\boldsymbol {l}},\lambda )p({\boldsymbol {l}}\mid {\boldsymbol {w}}){\frac {p(\mathrm {X} \mid {\mathcal {O}})p({\mathcal {O}}\mid {\mathcal {L}},\lambda )p(\lambda )p({\mathcal {L}}\mid {\mathcal {W}})}{p(\mathrm {X} )}}d{\boldsymbol {o}}d{\mathcal {O}}d\lambda \\\end{aligned}}

あとは補助変数について周辺化を行えばよいが、これを補助変数の同時確率を最大化する点で近似すると、予測分布は以下のように近似できる。

p({\boldsymbol {x}}\mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})\approx p({\boldsymbol {x}}\mid {\hat {\boldsymbol {o}}})

ただし、

\{{\hat {\boldsymbol {o}}},{\hat {\boldsymbol {l}}},{\hat {\lambda }},{\hat {\mathcal {O}}},{\hat {\mathcal {L}}}\}={\rm {arg~max}}_{{\boldsymbol {o}},{\boldsymbol {l}},\lambda ,{\mathcal {O}},{\mathcal {L}}}{\big \{}p({\boldsymbol {x}}\mid {\boldsymbol {o}})p({\boldsymbol {o}}\mid {\boldsymbol {l}},\lambda )p({\boldsymbol {l}}\mid {\boldsymbol {w}})p(\mathrm {X} \mid {\mathcal {O}})p({\mathcal {O}}\mid {\mathcal {L}},\lambda )p(\lambda )p({\mathcal {L}}\mid {\mathcal {W}}){\big \}}

である。

しかし、同時確率の最大化もなお困難であるため、さらに逐次最適化で近似すると、以下の6つの副問題をそれぞれ最適化することになる。

${\hat {\mathcal {O}}}={\rm {arg~max}}_{\mathcal {O}}p(\mathrm {X} \mid {\mathcal {O}})$ （音響特徴量の抽出）
${\hat {\mathcal {L}}}={\rm {arg~max}}_{\mathcal {L}}p({\mathcal {L}}\mid {\mathcal {W}})$ （言語特徴量の抽出）
${\hat {\lambda }}={\rm {arg~max}}_{\lambda }p({\hat {\mathcal {O}}}\mid {\hat {\mathcal {L}}},\lambda )$ （音響モデルの学習）
${\hat {\boldsymbol {l}}}={\rm {arg~max}}_{\boldsymbol {l}}p({\boldsymbol {l}}\mid {\boldsymbol {w}})$ （言語特徴量の予測）
${\hat {\boldsymbol {o}}}={\rm {arg~max}}_{\boldsymbol {o}}p({\boldsymbol {o}}\mid {\hat {\boldsymbol {l}}},{\hat {\lambda }})$ （音響特徴量の予測）
${\hat {\boldsymbol {x}}}\sim p({\boldsymbol {x}}\mid {\hat {\boldsymbol {o}}})$ （音声波形の生成）

End-to-Endモデル

中間特徴量を用いず直接音声波形を生成するモデルを End-to-End モデルという。すなわち $p(wave|text,\theta )$ を1つのモデルで表現し、コーパスを用いて $\theta$ を学習する。

手法

音声合成手法は3つに大別される。

規則合成: 音声生成に関する知識を元に定めた規則に基づいて音声を合成
波形接続型音声合成: 録音された音声の素片を連結して合成
統計的パラメトリック音声合成: 統計的に学習したパラメトリックな生成モデルの出力を元に音声を合成

それぞれの手法は音質・計算量・リアルタイム性などの特徴が異なり、用途に合わせて手法が選択される。

規則合成

規則合成^[13]は、研究を通じて得られた音声生成に関する知識を元に規則を定め、その規則に基づいて音声を生成する。歴史的には比較的古い。例えば以下のようなものがある。

フォルマント音声合成

フォルマント音声合成は、スペクトルや基本周波数などのパラメータを調整して音声を合成する。音の欠損がなく高速に発声させても明瞭に聞き取れる、統計的手法のような音声データベースを必要としないために合成器のサイズが小さくなる、イントネーションや音色を（規則の範囲内で）自由に変えることができるなどの特徴がある。一方で、合成された音声はロボット的なものであり、人間の音声らしさは乏しい。

かつては組み込みシステムでよく使われた。例えば、1970年代末にテキサス・インスツルメンツが発売した玩具・Speak & Spell、セガが1980年代に開発したいくつかのアーケードゲーム（Astro Blaster、Space Fury、Star Trek: Strategic Operations Simulatorなど）がある。

調音音声合成

調音音声合成は、人間の声道の構造をモデル化して、それを元に音声を合成する。商用でも使われた例があり、NeXTで使われていたシステムは、カルガリー大学の研究チームがスピンオフして作ったTrillium Sound Research Inc.が開発したものである。Trilliumはこれをフリーなgnuspeechとして公開しており、GNU savannah site^{[※ 1]}で入手可能である。

波形接続型音声合成

録音された音声の素片を連結して合成する。録音された音声の素片を利用するため、入力テキストに近いものが録音された音声中にあれば肉声に近く自然な合成音声になるが、そうでなければ接続部分などで自然性を損なうことがある。また、発話速度や声の高さを多少調整することはできるものの、それ以外の音声の柔軟な加工は原理的に困難である。あまり変化の激しい音声の合成は技術的に困難であり、そのため話し方はニュートラルなものがほとんどである。

例えば以下のようなものがある。

単位選択型音声合成

単位選択型音声合成^[14]^[15]は、コーパスベース音声合成とも呼ばれるが、生成モデル型音声合成でもモデルの学習にコーパスを使用する。データベースの作成では、音声を録音し、その録音した音声に対して、文・フレーズ・アクセント句・形態素・音素・アクセントなどを表すラベルを付与するとともに、音声認識や人手での調整により、ラベルと音声区間の対応を取る。音声を合成する際には一般に、まず入力テキストをテキスト解析器により解析し、そのテキストの文・フレーズ・アクセント句・形態素・音素・アクセントなどの情報（言語特徴量）を得る。次いで、得られた言語特徴量から基本周波数や音素継続長などを予測し、それに最も合致する（ターゲットコスト）音声素片を、接続部分の滑らかさ（接続コスト）も考慮しつつ、データベース中から選んで接続する。これにより、肉声に近く自然な音声を合成することを可能としている。しかし、あらゆる入力テキストに対してより自然に聞こえる音声を合成するには、想定される入力テキストに応じて録音する音声を増やす必要があり、その分データベースが巨大になる。波形接続型音声合成では合成器が音声素片を保持しておく必要があるため、容量の小さな補助記憶装置しか持たないシステムではこれが問題になることがある。

ダイフォン音声合成

音声データベースに目的言語のダイフォン（diphone、音素のペア）を保持し、それを使用して合成する。ダイフォンの個数はその言語の音素配列論により決まる（例えば、スペイン語なら約800、ドイツ語なら約2,500のダイフォンを持つ）。ダイフォン音声合成では、データベースは1つのダイフォンにつき1つの音声素片を保持しておけばよいので、データベースの大きさが単位選択合成と比較して圧倒的に小さくて済む。音声を合成する際には、ダイフォンを並べたものに線形予測分析法（PSOLA、MBROLAなど）のようなデジタル信号処理を施して韻律を作る。合成された音声は、単位選択型音声合成と比べて音質が劣る。単位選択型音声合成の発展などのため、近年では使われることが少ない。

分野限定音声合成

録音された単語や文節を連結して音声を合成する。これは特定分野のテキスト読み上げ、例えば駅の案内放送などで用いられる。この方式は分野を限定しているので、自然に聞こえる音声を合成するのは簡単である。しかし、どのような入力テキストでも合成できるわけではなく、特定の合成器を別の分野で使用するのは極めて困難である。データベースが保持している単語や文節しか合成できないため、入力テキストはそれらによって限定される。新しい入力テキストに対応する場合（例えば、新駅が設置された場合など）は、追加の録音を行う必要がある。また、フランス語におけるリエゾンなど、前後の単語などとの関係で発音が変わるのを再現するのは難しい。この場合、文脈を考慮して録音および合成を行う必要がある。

統計的パラメトリック音声合成

録音された音声から音声の特徴を学習したパラメトリックな生成モデルを作り、その生成モデルの出力を元に音声を合成する。生成モデルから人工的に音声波形を生成するために従来は肉声感に劣っていたが、2013年以降、深層学習（ディープラーニング）を利用することにより急速な改善が見られている。波形接続型音声合成では条件次第で合成された音声の滑らかさに問題が生じうるが、統計的音声合成では基本的には常に滑らかな音声を合成することが可能である。また、手法によっては例えばAさんの声とBさんの声の中間の声を合成するなど、音声を柔軟に加工することが可能である。また、比較的変化の激しい音声も合成可能であり、ニュートラルな話し方だけでなく、感情を込めた話し方など多様な表現が可能である。

隠れマルコフモデル音声合成

隠れマルコフモデル (Hidden Markov Model; HMM) を生成モデルに用いた音声合成。統計的パラメトリック音声合成の先駆けであり、東京工業大学のチームによって1999年に提案された^[16]。比較的少数のパラメータで音声の特徴を表現でき、モデルの大きさや、モデルの学習および音声の合成に要する計算コストは比較的小さい。携帯電話（フィーチャー・フォン）や電子手帳など、ハードウェアの制約が比較的大きい端末でも十分に動作が可能である。また、必要な録音時間も（商用の）単位選択型音声合成に比べて一般に短くて済む。隠れマルコフモデルは音声波形そのものを出力するのではなく、メル周波数ケプストラム係数 (Mel Frequency Cepstral Coefficients; MFCC) や線スペクトル対 (Linear Spectral Pairs: LSP) といった音声のスペクトルを表現する特徴量、および基本周波数などの特徴量系列を出力し、それをボコーダーによって音声波形に変換する。統計モデルの単純さからスペクトルが人間の音声と比べて平滑なものになりがちであり、このため合成された音声は肉声感に乏しい。また、基本周波数の軌跡も単純なものになりがちである。

ニューラルネットワーク音声合成

ニューラルネットワーク音声合成はニューラルネットワークを音声合成モデルに利用した音声合成である。言語特徴量から音響特徴量への（決定論的な）非線形変換をニューラルネットワークでモデル化する、言語特徴量で条件付けられる音声波形確率分布（生成モデル）自体をニューラルネットワークでモデル化する等の方法がある。

Googleのチームから2013年に最初の論文が発表された^[17]。ニューラルネットワークモデルは隠れマルコフモデルに比べて表現力が高く、より自然な音声合成が可能である。一方、モデルのパラメータ数、学習・音声合成計算コストは大きい。そのため実用段階ではサーバにおける合成が行われていたり、非GPU環境（一部のスマートフォンなど）での動作を可能にするための様々な研究が行われている。

隠れマルコフモデル音声合成と同様、ニューラルネットワークモデルは音響特徴量を出力する。さらにWaveNet（Google, 2016)^[18]をきっかけとして音声波形を直接モデル化・出力する手法が登場した。これら波形生成モデルは限られた条件下では人間の音声に極めて近い（あるいは同等の）品質の音声を合成できる。WaveNetの登場と商用化を背景に、同等の声質をより速く、軽く、シンプルなモデルで実現するための様々な研究が行われてる（WaveNet Vocoder^[19]、Clarinet^[20]、WaveGlow^[21]、WaveRNN^[22]、RNN_MS^[23]など）。

また従来はモデル入力に（入力テキストをテキスト解析器によって解析した）言語特徴量が用いられていた。2017年には言語特徴量（テキスト解析器）を不要としたChar2Wav^[24]、Deep Voice^[25]、Tacotron^[26]などのいわゆるend-to-end音声合成が提案され、活発な研究開発が行われている。

表. ニューラルTTS
モデル名	入力	出力	モデル	出典
Tacotron 2	テキスト	メルスペクトログラム	Autoregressive	arxiv
FastSpeech 2	音素	メルスペクトログラム	Transformer^[27]	arxiv
FastSpeech 2s	音素	波形	Transformer^[27]	arxiv

このように、設計された言語・音響特徴量を用いたパラメトリックな音声合成（統計的パラメトリック音声合成）は、特徴量によらない波形生成すなわち統計的音声波形合成（statistical speech waveform synthesis / SSWS）へと範囲を広げつつある^[28]。

分類

音声合成はいくつかの観点から分類できる。

生成元

テキスト: テキスト音声合成（text-to-speech）
音声: 音声変換（Voice Conversion）
- 歌声: 歌声変換（Singing Voice Conversion）
脳活動: Brain-Machine Interfaceの一種^[29]
（音響特徴量: ボコーダー。しばしばテキスト音声合成や音声変換に組み込まれる）

音声変換

音声変換（英: voice conversion）は入力音声がもつ特徴の一部を変換するタスクである。言語内容を維持したまま話者を変える話者変換、声のトーンのみを変える感情変換など、様々なサブタスクに分類できる。話者性や音色を維持し言語内容のみを外国語に変えるタスクは音声翻訳タスクとも音声変換タスクとも捉えられる。

属性

音声合成では特性の属性を指定した合成音声を生成する場合が多い^[2]。属性には音響的特徴から音声認知的特徴まで以下のようなものがある。属性の組み合わせにより個人性や訛りが生まれる。

言語内容（字句情報）
- 話速、音素長
大きさ（ラウドネス）
- 音量遷移/強弱アクセント
音高（ピッチ）
- 音高遷移
  - ピッチアクセント
  - イントネーション
音色
性別

課題

テキストの読み方の正しい推定

テキスト音声合成においては、入力されたテキスト（文章）の読み方を正しく推定することが必要である。一般には規則・辞書・統計的手法などを組み合わせて行う。しかし、これには様々な困難がある。例えば日本語では、漢字の音読み・訓読みの区別（あるいはそれぞれが複数ある場合にどの読み方か推定する）、同形異音語の区別、アクセントの推定、人名や地名の読み方の推定などを正しく行うには困難が伴う。

品質の客観評価

音声合成の品質のうち、合成音声の自然性を客観的に評価するのは困難である。専門家の間で共通して有効であると認識されているような客観指標は存在しない。目的話者との類似性や、目的の発話スタイルの再現性などについても同様である。

性能の公平な比較

音声合成の手法は研究者によってそれぞれ独自のデータセットを用いてモデル学習を行い、かつ独自の課題により評価することが少なくなく、性能を公平に比較することが困難な場合がある。そこで、音声に関する国際学会であるInternational Speech Communication Association (ISCA) のSpeech Synthesis Special Interest Group (SynSIG) では、2005年より毎年Blizzard Challenge^[30]という競技会を行っている。この競技会では、共通のデータセットを学習に用いた音声合成システムを、共通の課題により評価することで、性能の公平な比較を可能としている。

なお、特に商用の音声合成システムではその目的に応じたデータセットを用いることでその目的に特化した性能向上を図ることがあり、これは各社のノウハウとなっている。

音声合成システム

2020年現在、主要なパーソナルコンピュータおよびスマートフォンのオペレーティングシステムは音声合成による読み上げ機能（スクリーンリーダー）を搭載している。歴史的にも様々な音声合成システムが実用されてきた。以下はその一例である。

Mac OS、macOS、iOS
- MacInTalk（英語版）（Macintosh, 1984~）
- PlainTalk（英語版）: 音声認識とMacInTalkによる視覚障害者サポート
- VoiceOver（Mac OS X v10.4 ~）
- Siri

Microsoft Windows
- SAPI
- Narrator（Windows XP）
- Cortana
Android
- Googleアシスタント

TI-99/4Aには音声合成機能をオプションで追加可能であった^[31]。
PC-6001は音声合成カートリッジが追加でき、PC-6001mkIIには音声合成機能が内蔵されていた。後継のPC-6001mkIISRやPC-6601では歌うことも可能であった。
FM-7/FM-77シリーズには音声合成ボード (MB22437/FM-77-431) がオプションとして用意されていた。
MZ-1500/2500/2861にはオプションとしてボイスボード (MZ-1M08) が存在した。五十音と、いくつかのフレーズを外部チップにサンプリングされROMとして焼きこまれており、制御によって再生するものである。
OSS
- Festival Speech Synthesis System
- gnuspeech
- HMM-based Speech Synthesis System (HTS)
- Open JTalk（HTSに基づいた日本語向け音声合成システム）
- MaryTTS

学術雑誌・学会

音声合成の研究について議論されている学術雑誌や学会には、以下のようなものがある（太字は一部または全部の論文について査読を行っているもの）。

学術雑誌

European Association for Signal Processing (EURASIP)
- Speech Communication（ISCAと合同）
IEEE
- IEEE Transaction on Information and Systems
- IEEE Transaction on Signal Processing
International Speech Communication Association (ISCA)
- Computer Speech and Language
- Speech Communication（EURASIPと合同）
シュプリンガー・サイエンス・アンド・ビジネス・メディア
- International Journal of Speech Technology

日本音響学会
- 日本音響学会誌
- Acoustical Science and Technology (AST)
電子情報通信学会
- 電子情報通信学会論文誌
情報処理学会
- 情報処理学会論文誌

国際学会

Asia Pacific Signal and Information Processing Association (APSIPA)
- APSIPA Annual Summit Conference (APSIPA ASC)
IEEE
- International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Spoken Language Technology (SLP)
International Speech Communication Association (ISCA)
- INTERSPEECH
- Speech Prosody
- Speech Synthesis Workshop (SSW)

日本国内の学会（日本語で議論が可能）

日本音響学会
- 音声研究会（SP。電子情報通信学会と合同）
- 日本音響学会研究発表会
電子情報通信学会
- 音声研究会（SP。日本音響学会と合同）
情報処理学会
- 音声言語情報処理研究会 (SLP)

研究団体

音声合成の研究を行っている団体には以下のようなものがある。

大学（日本国内）

宇都宮大学
- 大学院工学研究科システム創生工学専攻森研究室
京都大学
- 大学院情報学研究科知能情報学専攻河原研究室
熊本大学
- 大学院自然科学教育部情報電気工学専攻緒方研究室
神戸大学
- 大学院システム情報学研究科情報科学専攻滝口研究室
総合研究大学院大学（国立情報学研究所の教員が指導）
- 国立情報学研究所コンテンツ科学研究系山岸研究室
東京大学
- 大学院工学系研究科技術経営戦略学専攻松尾研究室
- 大学院工学系研究科電気系工学専攻峯松・齋藤研究室
- 大学院情報理工学系研究科システム情報学専攻システム情報第1研究室（猿渡・小山研究室）
東京工業大学
- 工学院情報通信系小林研究室
東北大学
- 大学院工学研究科通信工学専攻伊藤・能勢研究室
名古屋工業大学
- 大学院工学研究科情報工学専攻徳田・南角研究室
名古屋大学
- 大学院情報学研究科知能システム学専攻武田研究室
- 大学院情報学研究科知能システム学専攻戸田研究室
奈良先端科学技術大学院大学
- 先端科学技術研究科情報科学領域知能コミュニケーション研究室
山梨大学
- 大学院総合研究部森勢将雅
立命館大学
- 立命館大学情報理工学部メディア情報学科山下研究室

公的研究機関（日本国内）

国立情報学研究所
情報通信研究機構

企業

その他

音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML)

詳細は「Speech Synthesis Markup Language」を参照

音声合成においてテキスト解析を100%正しく行うことは困難である。また、テキストからは解釈できない、特定の読み方をさせたいこともある。そこで何らかの方法により情報を指定する必要があるが、ドメイン固有言語により行う方法のほか、W3Cにより定義された音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML) により行う方法がある。

注釈

^ Articulatory Speech Synthesis - Summary [Savannah]

出典

^ "Speech synthesis is the task of generating speech waveforms" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.
^ ^a ^b "with desired characteristics, including but not limited to textual content ..., speaker identity ..., and speaking styles" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.
^ History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine（音声の仕組みとしゃべる機械の解説）
^ Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.
^ http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事（NYタイムス）
^ Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
^ “ロボホン”. robohon.com. 2018年11月28日閲覧。
^ 「“AIアナウンサー”がラジオ放送　Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。
^ 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685.
^ 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792.
^ 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393.
^ Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18.
^ Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149.
^ 河井, 恒; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, 実; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404.
^ Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149.
^ Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149.
^ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499.
^ J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.
^ W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018
^ R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018
^ N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.
^ Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019
^ Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission.
^ Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825.
^ Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135.
^ ^a ^b We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv
^ Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292
^ Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]
^ “Blizzard Challenge 2018 - SynSIG” (英語). www.synsig.org. 2018年11月30日閲覧。
^ Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002

一次文献

^ 「防災無線が機械音声に 11月１日から本格開始 | 厚木 | タウンニュース」『タウンニュース』、2016年11月11日。2018年11月28日閲覧。
^ “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日) 2018年11月28日閲覧。
^ “エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。
^ “音声対話”. AX-XW400 | ウォーターオーブンヘルシオ：シャープ. 2018年11月28日閲覧。
^ “音声ニュース配信　朝日新聞アルキキ”. www.asahi.com. 2018年11月28日閲覧。
^ “Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple” (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。
^ “WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。
^ “5/30サービス開始！NTTドコモの新しいAIエージェント「my daiz」にエーアイの音声合成AITalkが採用株式会社AI（エーアイ）”. 株式会社エーアイ(AI). 2018年11月28日閲覧。
^ “エモパー｜機能・サービス｜AQUOS ZETA SH-01G｜製品ラインアップ｜AQUOS：シャープ”. シャープスマートフォン・携帯電話　AQUOS公式サイト. 2018年11月28日閲覧。
^ “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語) 2018年11月28日閲覧。
^ CORPORATION., TOYOTA MOTOR. “トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト”. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。
^ 「テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。
^ “VoiceTextホーム | HOYA音声合成ソフトウェア”. HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。
^ 「NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。
^ 「ハイウェイラジオのヒミツ　情報の早さ、エリアの細かさ、その仕組みは？ | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。
^ “Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。
^ “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日) 2018年11月28日閲覧。
^ “受け入れ態勢は？「筆談ホステス」当選の北区議会に聞いた｜日刊ゲンダイDIGITAL”. 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。

外部リンク

Watson Text to Speech - IBM
Windows XP での音声合成の構成および使用方法 - マイクロソフト
Audio of 1962 Bell Laboratories computer speech demonstration （英語）
Talking Heads website （英語）
Intelligent Speaker （英語） - スピーチテキストブラウザ拡張機能
『音声合成』 - コトバンク

この項目は、工学・技術に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（Portal:技術と産業）。

[32] Articulatory Speech Synthesis - Summary [Savannah]

[1] "Speech synthesis is the task of generating speech waveforms" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.

[:2-2] "with desired characteristics, including but not limited to textual content ..., speaker identity ..., and speaking styles" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.

[Helsinki-3] History and Development of Speech Synthesis (Helsinki University of Technology) - 英語

[4] Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine（音声の仕組みとしゃべる機械の解説）

[5] Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.

[6] ttp://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事（NYタイムス）

[bell_labs_hal-7] Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)

[18] “ロボホン”. robohon.com. 2018年11月28日閲覧。

[23] 「“AIアナウンサー”がラジオ放送　Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。

[28] 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685.

[29] 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792.

[:0-30] 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393.

[31] Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18.

[33] Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149.

[34] 河井, 恒; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, 実; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404.

[35] Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149.

[36] Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149.

[37] van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499.

[38] J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.

[39] W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018

[40] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018

[41] N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.

[42] Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019

[43] Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission.

[44] Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825.

[45] Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135.

[:1-46] We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv

[47] Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292

[48] Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]

[49] “Blizzard Challenge 2018 - SynSIG” (英語). www.synsig.org. 2018年11月30日閲覧。

[50] Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002

[8] 「防災無線が機械音声に 11月１日から本格開始 | 厚木 | タウンニュース」『タウンニュース』、2016年11月11日。2018年11月28日閲覧。

[9] “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日) 2018年11月28日閲覧。

[10] “エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。

[11] “音声対話”. AX-XW400 | ウォーターオーブンヘルシオ：シャープ. 2018年11月28日閲覧。

[12] “音声ニュース配信　朝日新聞アルキキ”. www.asahi.com. 2018年11月28日閲覧。

[13] “Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple” (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。

[14] “WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。

[15] “5/30サービス開始！NTTドコモの新しいAIエージェント「my daiz」にエーアイの音声合成AITalkが採用株式会社AI（エーアイ）”. 株式会社エーアイ(AI). 2018年11月28日閲覧。

[16] “エモパー｜機能・サービス｜AQUOS ZETA SH-01G｜製品ラインアップ｜AQUOS：シャープ”. シャープスマートフォン・携帯電話　AQUOS公式サイト. 2018年11月28日閲覧。

[17] “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語) 2018年11月28日閲覧。

[19] CORPORATION., TOYOTA MOTOR. “トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト”. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。

[20] 「テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。

[21] “VoiceTextホーム | HOYA音声合成ソフトウェア”. HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。

[22] 「NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。

[24] 「ハイウェイラジオのヒミツ　情報の早さ、エリアの細かさ、その仕組みは？ | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。

[25] “Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。

[26] “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日) 2018年11月28日閲覧。

[27] “受け入れ態勢は？「筆談ホステス」当選の北区議会に聞いた｜日刊ゲンダイDIGITAL”. 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[† 1]

[† 2]

[† 3]

[† 4]

[† 5]

[† 6]

[† 7]

[† 8]

[† 9]

[† 10]

[8]

[† 11]

[† 12]

[† 13]

[† 14]

[9]

[† 15]

[† 16]

[† 17]

[† 18]

[10]

[11]

[12]

[13]

[※ 1]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

典拠管理データベース
国立図書館	イスラエル日本チェコ
その他	MusicBrainz楽器

概要

歴史

用途

理論