音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』

音声合成(おんせいごうせい、Speech synthesis)とは、人間の音声を人工的に作り出すことである。これを行うシステムをスピーチ・シンセサイザーSpeech synthesizer)と呼ぶ。

目次

[編集] 音声合成技術の概要

人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できることから、しばしばテキスト読み上げtext-to-speech、略してTTS)システムとも呼ばれる。また、発音記号を音声に変換するシステムもある。

[編集] 歴史

[編集] 機械式

現代的な電子信号処理が発明されるずっと以前から、音声を合成する試みがなされてきた。初期の試みとしては、のちに教皇シルウェステル2世となるオーリヤックのジェルベール(1003年没)、アルベルトゥス・マグヌス(1280年没)、ロジャー・ベーコン(1294年没)などの人物が音声合成を試みている。1779年、ドイツ人クリスティアン・クラッツェンシュタインは母音 (a, e, i, o, u) を発声できる機械を製作した[1]

この流れはふいごを使った機械式音声合成器を作ったオーストリア(ハンガリー)のヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文[2]を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。

1837年チャールズ・ホイートストンはフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年、M. FaberはEuphoniaを製作した。ホイートストンの機械は1923年Pagetによって再現されている[3]

1930年代ベル研究所ヴォコーダー (Vocoder) を開発した。キーボード操作の電子式の音声分析・音声合成マシンで、その発声はクリアで知的だった。ホーマー・ダドリー(Homer Dudley)はこれを改良したVODERを製作し、ニューヨーク万国博覧会 (1939年)に出展した。1940年代、ハスキンズ研究所(Haskins Laboratories)のフランクリン・S・クーパー(Franklin S. Cooper)らはPattern playbackという名の機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン(Alvin Liberman)らはこれを音声学の研究に利用した。

[編集] 電子式

初期の電子式スピーチ・シンセサイザーはロボット的で驚くほど知的である。その音声は本物と区別するのが難しいと言われた。それとは別に人間型ロボットに発声させるため、機械式音声合成も研究が続けられた。

電子式ではスピーカーの音質に制限されるが、ロボットで人間の体の構造を模倣した機械式音声合成なら、もっと人間に近い発声になると考えられていた[4]。最初のコンピュータを使った音声合成システムは1950年代終盤に開発され、最初のテキスト読み上げシステムは1968年に開発されている。1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmen[5]ベル研究所にてIBM 704を使って音声合成を行った。そして"Daisy Bell"という歌をコンピュータに歌わせた。友人のJohn Pierceを訪ねてベル研究所に来ていたアーサー・C・クラークは、このデモを聴いた。クラークはこれに感銘を受け、『2001年宇宙の旅』でHAL 9000が歌うクライマックスシーンが生まれた[6]

[編集] 実用例

音声合成技術は文字を読むことが困難な障害者や、文字が読めない人(幼児、外国人など)に画面読み上げソフトスクリーンリーダー)として長く利用されてきており、言葉を発することが困難な人が代替手段として利用することも多い。また、2000年頃から家電製品の音声ガイダンスや、公共交通機関防災関係のアナウンス用途として音声合成されたものが広く使用されるようになっている。

これは、人間が発声したものを録音すると、台詞の変更の度にその部分を録音をし直さなければならないが、音声合成であればデータの作成で済むためである。実際に、鉄道用アナウンスでは、駅が追加されたり名称変更があっても、その箇所のみが変更されている。

また、最近では個人向けのソフトウェアなどにも活用されてきている。

[編集] テキスト読み上げシステム

テキスト読み上げシステムは、フロントエンドバックエンドのふたつの部分からなる。一般に、フロントエンドは入力したテキストから記号化言語表現 (symbolic linguistic representation) を出力する。バックエンドはフロントエンドで合成された音声の波形を出力する。音声合成の自然さは、出力される音声がいかに現実の人間の音声に似ているか、明瞭度は聴きやすさ(出力音声の理解しやすさ)で評価される。

フロントエンド
フロントエンドにはふたつの大きな仕事がある。ひとつはテキストの中の数字や省略表現を読み上げるときの表現に変換することである。これは、「テキストの正規化」、「プリプロセッシング」、「トークン化」などと呼ばれる。もうひとつは各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割することである。単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme、略してTTP)変換または書記素音素(grapheme-to-phoneme、略してGTP)変換と呼ぶ。発音記号と韻律情報を組み合わせて記号化言語表現を作成し、フロントエンドの出力とする。
訳注
この部分は言語によってかなり違いがある。日本語の場合、わかち書きをしない為、文章を正確に処理するためには単語を分割する作業が必要となる。
バックエンド
フロントエンドの出力結果を元に、より自然な音声にするため韻律などの音声の調整を行い、実際の音声データを出力する。この処理にて音声の性質が決定されるため、音声合成ソフト独自色が出ることが多い。また、一般的に「話言葉」を目指す物が多いが、歌声の様な調整を行なう音声合成ソフトもある。

[編集] オペレーティングシステムでの音声合成

アップル
1984年、アップルコンピュータにMacInTalk機能を搭載した。その後も新しいOSバージョンでは音質が改善されている。また、音声認識も導入しており、これらの機能を統合したPlainTalkは視覚障害者のためのサポートプログラムであった。Mac OS X v10.4以降にはVoiceOverという音声合成機能になっている。
AmigaOS
1985年のAmigaOSでも音声合成機能が組み込まれていた。男性と女性の声を選択できる[7]。AmigaOSでは音声合成を仮想デバイスとしていたため、コンソール出力を音声合成にリダイレクトすることも可能であった。このため、ワープロソフトなど各種アプリケーションで容易に音声合成を利用可能であった。
Microsoft Windows
Windowsでは、SAPIという音声関係のAPIを用意している。Windows XPではNarratorという音声合成プログラムが追加されている(英語版)。コールセンターなどでの音声認識と音声合成のパッケージとしてMicrosoft Speech Serverが用意されている。
その他
  • TI-99/4Aには音声合成機能をオプションで追加可能であった[8]
  • PC-6001mkIIには音声合成機能が内蔵されていた。後継のPC-6001mkIISRやPC-6601では歌うことも可能であった。
  • FM-7/FM-77シリーズには音声合成ボード (MB22437/FM-77-431) がオプションとして用意されている。
  • MZ-1500/MZ-2500にはオプションとしてボイスボードが存在する。五十音と、いくつかのフレーズがサンプリングされROMとして焼きこまれ再生するものである。

[編集] インターネットでの音声合成

音声合成マークアップ言語
テキストを音声に変換するためのXML準拠のマークアップ言語がいくつかある。最近ではSSMLがW3Cから提案されドラフト状態である。他にもSABLE、JSMLなどがある。Cascading Style Sheets 2のサブセットはAural Cascading Style Sheetsを含んでいる。音声合成マークアップ言語はVoiceXMLのようなダイアログ・マークアップ言語とは異なる。ダイアログ・マークアップ言語はテキスト読み上げだけでなく、音声認識などにも対応している。

[編集] 合成技術

音声波形を生成する主要技術は、大きく連結的合成 (concatenative synthesis) とフォルマント合成 (formant synthesis) の2つに分ける事ができる。

[編集] 連結的合成

連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。一般に連結的合成は最も自然な合成音声になるといわれているが、発声のバリエーションと波形の断片化の細かさによっては出力音声に欠損が生じ、自然さを損なうことがある。

連結的合成には以下にあげる三種類がある。

単位選択合成 (Unit selection synthesis) 
別名としてコーパスベース音声合成方式とも呼ばれる。大きな音声のデータベース(通常一時間以上の録音された音声から成る)を使用する。データベースを作成する為には、録音する音声を「音」、「音節」、「形態素」、「単語」、「成句」、「文節」などに分割し、それらを人の手によって検索できるようにインデックスを調整して作成する。音声合成を行う際には、アルゴリズムに従って最も適した音の組み合わせをデータベースから探し出して合成する。これにより極めて肉声に近い自然な音声に合成することが可能となる。しかし、より自然に聞こえる音声を合成するにはデータベースの情報量を増やす必要があり、データサイズが膨大となる問題も発生する。
Diphone合成 (Diphone synthesis)
音声ライブラリにターゲットとする言語のDiphone(音と音のつながり部分)を全て持ち、それを使用して合成する。Diphoneの個数はその言語の音素配列論で決まっている。(スペイン語なら800、ドイツ語なら2500のDiphoneを持つ。)Diphone合成では、各Diphoneの音声がひとつだけデータベースに格納されている。実行時にはDiphoneを並べたものに線形予測分析法(PSOLA、MBROLAなど)のようなデジタル信号処理技法を施して韻律を作る。できあがった音声は単位選択合成に比較すると音質が劣るが、フォルマント合成よりは自然な音質になる。しかし、Diphone合成は結合部の欠陥が目立ち、フォルマント合成のようなロボット的な発生になってしまう問題がある。そのため商用では徐々に利用が減っているが、フリーソフトウェアや研究用としては使われ続けている。
分野限定合成 (Domain-specific synthesis)
録音された単語や文節を連結して音声を合成する。これは特定分野のテキスト読み上げに使われる。例えば乗り換え案内の放送や天気予報などである。これは実装が簡単なので商用にも長年使われてきた。例えば、しゃべる時計や電卓などである。この方式は分野を限定しているので自然に聞こえる音声を合成するのが簡単である。しかし、汎用ではないので、利用は限定される。内部のデータベースにある単語や文節しか話せないため、内容が登録されている音声によって限定される。また、例えばフランス語リエゾンなど、前後の単語との関係で発音が変わる場合を再現するのが難しい。この場合、文脈を考慮して合成する必要がある。

[編集] フォルマント合成(合成音声)

フォルマント合成は録音された人間の音声は使用せず、基底周波数、音色、雑音レベルなどのパラメータを調整して波形を作り、人工的な音声を作る。合成された音声はロボット的に聞こえる音声になるため、人間の音声と間違えることはない。フォルマント合成は連結的合成と比べ次の様な特徴も持っている。

  • 音の欠損がないので、高速に発声させても明瞭に聞き取れる。このため高速さを要求されるテキスト読み上げにはよく使われている。
  • 連結的合成のような音声データベースを必要としないので、データのサイズが小さくなる。
  • 出力音声を容易に変化させることができるので、イントネーションや音色を自由に変えることが出来る。

上記の様な特徴のため、組み込みシステムでもよく使われ、フォルマント合成の例として、1970年代末にテキサス・インスツルメンツが発売した玩具Speak & Spell、セガの1980年代のいくつかのアーケードゲームがある(Astro Blaster、Space Fury、Star Trek: Strategic Operations Simulatorなど)。これらのイントネーションの再現は非常によく、リアルタイムのテキスト読み上げインタフェースでの実現はこれからである[9]

[編集] その他の合成手法

Articulatory synthesis
最近まで純粋に学術的研究として使われてきた手法である。それは人間の声道部分の構造を研究してそこで起こっていることを人工的に再現するものである。最近になってその成果が商用の音声合成でも使えるレベルになってきた。NeXTで使われていたシステムはカナダのカルガリー大学の研究チームがスピンオフして作ったTrillium Sound Research Inc.が開発したものである。Trilliumはこれをフリーなgnuspeechとして公開しており、GNU savannah siteで入手可能である。
Hybrid synthesis
フォルマントと連結的合成を組み合わせたもので、音の欠損をなるべく少なくしたものである。
HMM-based synthesis
隠れマルコフモデル(HMM)に基づいた合成である。このシステムでは、周波数スペクトル基本周波数、持続時間(韻律)がHMMによって同時にモデル化される。音声波形はHMM自体が最尤法に基づいて生成する[10]
Sinewave synthesis
フォルマントを純粋な正弦波の合成によって構成する技法である[11]


[編集] 日本語音声合成ソフトウェア

  • AITalk(R)(株式会社エーアイ) [2]
  • AIVoice(R)(株式会社エーアイ) [3]
  • ALTAIR for Windows [4]
  • AquesTalk(株式会社 アクエスト[5] - ライブラリ。同エンジンを使用し、歌唱させることに特化したAquesToneも存在する。
  • CHATR [6]
  • CSVIEW/VoiceOperator(NEC) [7] - オプションとして音声合成機能が提供されている。
  • Document Talker [8]
  • FineVoice (NTT-IT) [9]
  • FutureVoice (NTT-IT) [10]
  • FineSpeech [11]
  • Galatea Talk [12] - 音声認識、音声合成、顔画像合成、対話制御で構成されるGalatea Toolkitの一部。オープンソースソフトウェア。
  • Hipervoice (NTT-IT) [13]
  • Hitachi Keiyo Engineering(日立ケーイーシステムズ) [14]
  • HTS [15] - HMM音声合成システムを学習するためのツールキット。オープンソースソフトウェア。
  • InnoVoice [16]
  • JPNTAKE [17]フリーソフト使いやすい設計。
  • LaLaVoice 2001 [18] 東芝製PCのバンドルソフト。単体販売もあり。
  • ProTALKER 97, ProTALKER/2 (日本IBM) [19]
  • SmartVoice (NEC) [20]
  • SpeeCAN [21]
  • S-PLG100-SG(ヤマハ株式会社)まずハード音源としてModular Synthesis Plug-in Systemの一つとして販売。(現在は生産終了)[12]その後、ソフトシンセとしてS-YXG100plus(生産終了)にバンドルされる形で販売されていた。[13]
  • VOCALOID(ヤマハ株式会社)[22] - メロディと歌詞を入力し歌声を生成する。エンジン部をヤマハが開発し、クリプトン・フューチャー・メディアZERO-GPOWER FX等が音声部分を作成している。2007年8月31日にはバージョンアップ版のVOCALOID2が発売された。
  • Voice of Japan [23]
  • VoiceSommelier(日立ビジネスソリューション株式会社) [24]
  • VoiceText(pentax) [25] - 日本語以外の言語にも対応。SDKも存在する。テレビ東京系列のバラエティ番組モヤモヤさまぁ〜ず2』にて、ナレーションに利用されている。
  • VOStalk [26]
  • Wizard Voice [27]
  • XIMERA [28]
  • Yomi [29]
  • YOMOYOMO [30] - 日本語テキスト音声合成も可能な無料システム。日本国外向けサービス。
  • しゃべるんです [31] - テキストを音声で読み上げる。WAV/MP3保存可。クリップボード監視機能
  • 自分の声ソフト Polluxstar(OKI) [32] - 特定個人の合成音を作るシステム構築サービス,大阪芸大 牧教授の教壇復帰事例は注目された。
  • ボイスキーボード(声が出ない[33]、サンプル版[34]) - セクシーボイス合成ができる。
  • ボイス君のテキストスピーチ2(株式会社NTTデータ) [35]

[編集] 音声合成の技術を採用している主な製品

[編集] 関連項目

[編集] 脚注

  1. ^ History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
  2. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine(音声の仕組みとしゃべる機械の解説)
  3. ^ Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.
  4. ^ Anthropomorphic Talking Robot Waseda-Talker Series
  5. ^ http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事(NYタイムス)
  6. ^ Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
  7. ^ Miner, Jay et al (1991). Amiga Hardware Reference Manual: Third Edition. Addison-Wesley Publishing Company, Inc. ISBN 0-201-56776-8.
  8. ^ Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002
  9. ^ John Holmes and Wendy Holmes. Speech Synthesis and Recognition, 2nd Edition. CRC: 2001. ISBN 0748408568.
  10. ^ The HMM-based Speech Synthesis System, http://hts.sp.nitech.ac.jp/
  11. ^ Remez, R.E., Rubin, P.E., Pisoni, D.B., & Carrell, T.D. Speech perception without traditional speech cues. Science, 1981, 212, 947-950.
  12. ^ [1]
  13. ^S-YXG100plus

[編集] 外部リンク