音声合成LSI

出典: フリー百科事典『ウィキペディア(Wikipedia)』

音声合成LSI(おんせいごうせいエルエスアイ)とは、自然言語による音声出力の処理を行うLSIである。

汎用DSPに近いものから、専用アナログICに近いものまでいろいろあるが、この記事では、主に家電製品などに組み込まれ、使用者に製品の動作状況を知らせるためのヒューマンマシンインターフェースとして用いられたものについて扱う。かつては、単純なコマンドベースの、アナログ的な音声合成手法にもとづくものが多かったが、近年ではROMの大容量化(コストパフォーマンス向上)などにより、あらかじめ録音された音声データを基にディジタル信号処理を行い出力するようなものも多い。

歴史[編集]

コンピュータ用に市販された初めての音声合成システムは、1976年のCompu-Talker CT-1($398.00)である。コンピュータ用の増設ボードとして登場したが、当時は各社のコンピュータのハードウェア互換性がなく、汎用品として使用することができなかったため、あくまで電子部品の一つという扱いであった。

一般に音声合成が広まったのは、1978年に発売されたテキサスインスツルメンツ社のSpeak & Spellsという知育玩具の商業的成功によるところが大きい。この製品の当時の販売価格は日本で1万円程度と安価であったため、人気を博した。数十年前の製品であるが、現在でもミュージックシーンで人気があり、実機は高値で売買されている。

また、当時米国で普及していたパソコンであるApple IIに、音声合成LSIを搭載した製品が販売されていた。これらの製品はいずれも英語圏で開発されており、出力言語は英語であった。

かつて、日本国内ではセイコーエプソン沖電気工業が音声合成LSIが製造していたが既に生産終了となっている。セイコーエプソンは現在でも多言語化や多機能化を図った音声合成・音声認識LSIを製造している。また、アクエストがAVRマイコンに音声合成エンジンを書き込んだマイコンベースの音声合成LSIを発売しており、秋月電子通商などで購入が可能。

電子音による音声合成方式[編集]

古くは、様々な周波数や長さから成る電子音の複雑な合成を行って、限られた記憶容量しか持たない電子機器の音声出力などに使われた。鼻にかかったようなアクセントが特徴的な音声を出力するこの方式のLSIは、PC-6001mkIIなどの8ビットパソコンにも搭載された。今日でも旧式の自動販売機に、このLSIを持つ製品が残されている。

この合成電子音を用いる方式の場合、母音と子音・アクセントをコマンド類で制御できるため、動作させるためのデータを少なくでき、また制御も簡単であったため、処理能力や記憶容量に制約のあるマイコン機器に組み込むのに適していた。1970年代後半から1980年代にかけて、ハイテクさをアピールし、他社製品との差別化を図りたい日本の各家電メーカーは多機能化の一環として、競って「しゃべる家電」を市場投入した。

しかしアクセントを強弱で表現する英語の音声出力には十分実用的であったものの、アクセントを音程で表現する日本語等では言語を正確に表現することができなかったため、若干聞き取りづらい音声出力しか行えず、日本では次第に「コンピュータ声」として敬遠され、廃れていった。

デジタル録音方式[編集]

合成電子音方式に代わって登場したのがデジタル録音の音声を用いる方式で、内蔵されたROMに搭載された音声データを再生するものである。デジタル録音方式は、あらかじめ録音されたフレーズを組み合せて発声させる出力方式であることから、合成電子音方式と比較して汎用性に乏しかった。その欠点もLSI生産コストの低減により、機器に合わせた仕様のLSIチップが大量生産されるようになるにつれて解消された。またLSIにフラッシュメモリーを組み込むことで、パッケージ化された後に任意のメッセージを録音可能なものも存在する。

録音音声により発声する方式は、当初こそ記憶容量の問題から音声データのビットレートが低く、「感度の悪いラジオ」程度に聞き取りづらいものであったが、次第に記憶容量が増えたりデータ圧縮方式が改良されるにつれて、明瞭な音声を搭載することができるようになった。今日ではコストダウンも進み、玩具類、自動販売機、キャッシュディスペンサー等の音声アナウンスのみならず、構内放送等のチャイム音(俗にいうウェストミンスターの鐘)においても同方式を用いて電子的に録音された音が用いられ、また、信頼性の高さから人命に関わる火災報知器の避難を促す音声ガイドにもこれらのLSIが利用されている。

音声合成[編集]

現在ではパソコンを用いて録音された音声や文章を読み上げるさせることができるが、これらは音声合成LSIを内蔵せず、汎用性の高いCPUを使ってデジタル録音データのファイルから音声を再構成したり、文章を解析してイントネーションなどの傾向を分析し、ソフトウェア内で音声を合成して発声させている。この方式は高度な処理能力を必要とするため、性能に限りのあるLSIで実現することは困難だが、現在のパソコンであれば十分な処理能力を持つため、音声合成LSIを凌ぐ機能を実現することが可能となっている。

ことこれらでは、より自然な発声が行えるよう様々なアルゴリズムが開発・利用されており、2000年代においては処理能力の向上したパソコンで、音程を付けて歌う製品も流通している。

関連項目[編集]

外部リンク[編集]