音声コマンドデバイス

出典: フリー百科事典『ウィキペディア(Wikipedia)』

音声コマンドデバイス(Voice command device、VCD) は人間の声によって操作するデバイスである。ボタンやダイアルスイッチを使う必要をなくすことで消費者は他の作業をしながら手を触れることなく家電機器を簡単に操作できる。例を挙げれば、VCDの洗濯機では消費者は音声コマンドを通じて洗濯を操作でき、携帯電話では声で電話をかけることが出来る。

最新の音声コマンドデバイスは話者に依存しないのでアクセントまたは方言の影響にもかかわらず複数の声に返答できる。一度に複数のコマンドに応答することができ、別々に対応する音声メッセージを流すほか、正確で自然な会話を模倣して適切なフィードバックを提供する[1] 。約50種類のコマンドを理解することができ、音声メッセージを最大2分間まで保持することが出来る 。音声コマンドデバイスはコンピューターのオペレーティングシステム(OS)やコンピューター用の商業ソフトウェア、携帯電話、自動車、コールセンター、Googleのようなインターネット検索エンジンにも搭載されている。

2007年、CNNのビジネス記事で音声コマンドの市場規模は10億ドル以上でGoogleやAppleのような企業は音声認識機能の開発を試みていると報じた[2]。その記事が公開されてから数年が経ち、それ以来様々な音声コマンドデバイスが登場してきた。加えてGoogleは音声認識エンジン「Pico TTS」を開発し、Appleは「Siri」をリリースした。音声コマンドデバイスはより広く利用されるようになり、人の声を使った革新的な手法も常に作られていった。例えば、ビジネスウィークは将来のリモコンは人間の声になると示唆している。現在のXbox Liveはそのような機能が搭載されており、ジョブズは新型Apple TVでの搭載を示唆していた[3]

ソフトウェア製品での音声コマンド[編集]

AppleのMacWindows PCの両方は最新のOSにおいて音声認識機能を実装している。

マイクロソフトウィンドウズ[編集]

マイクロソフトの2つのOS「Windows 7」と「Windows Vista」は音声認識機能を提供している。マイクロソフトは音声コマンドを同社のOSに統合し、マウスとキーボードの使用を制限したいが全体的な生産性を維持または増やしたいと望む人向けのメカニズムを提供している[4]

Windows Vista[編集]

Windows Vistaの音声操作機能により、ユーザーは主流のアプリケーションで文書や電子メールを口述したり、アプリケーションの起動と切り替え、OSの操作、文書の書式設定、文書の保存、ファイルの編集、エラーの効率的な修正、Webフォームの記入を行うことができる。音声認識ソフトウェアはユーザーが使用するたびに自動的に学習しており、音声認識は英語(アメリカ)、英語(イギリス)、ドイツ語(ドイツ)、フランス語(フランス)、スペイン語(スペイン)、日本語、中国語(繁体字、簡体字)の言語で利用できる。加えて、ソフトウェアにはユーザーと音声認識エンジンの両方のトレーニングに使うことが出来る双方向チュートリアルが付属している[5]

Windows 7[編集]

Windows Vistaで提供されてきた全機能に加えてWindows 7はマイクを設定するためのウィザードと機能の使用方法に関するチュートリアルが用意されている[6]

Mac OS X[編集]

全てのMac OSコンピューターは音声認識ソフトウェアがプリインストールされている。ソフトウェアはユーザーに依存しないため、ユーザーはメニューをナビゲートしてキーボードショートカットを入力し、チェックボックス名、ラジオボタン名、リスト項目、ボタン名を話したり、アプリケーションを開いたり、閉じたり、操作したり、切り替えることができる[7] 。しかしながら、Appleのウェブサイトでは「Dictate」と呼ばれる商業製品を購入することを推奨している。

商業製品[編集]

もしユーザーが搭載された音声認識ソフトウェアに満足しなかったまたはOSに音声認識ソフト自体が搭載されていなかった場合はユーザーはWindows PC版の「DragonNaturallySpeaking」(Mac版の名称は「Dictate」)ような商業製品も試すことができる[8][9]

携帯端末での音声コマンド[編集]

Android OS、Microsoft Windows Phone、iOS 5以降、またはBlackberry OSを実行する携帯端末では音声コマンド機能を提供している。各携帯電話のOS用に搭載された音声認識ソフトウェアに加えて、ユーザーは、各OSのアプリケーションストア(Apple App StoreGoogle Play、Windows Phone Marketplace(最初はWindows Mobile for Mobile)またはBlackBerry App World)からサードパーティの音声コマンドアプリをダウンロードすることができる。

Android OS[編集]

Googleは、オープンソースのOS「Android」を開発した。Androidのボイスコマンドにはテキストメッセージの送信、音楽の再生、道順の取得、連絡先の電話、メールの送信、地図の表示、ウェブサイトへのアクセス、 メモを書き、Googleで検索などがある[10] 。音声認識ソフトウェアはAndroid 2.2(Froyo)以降の全てのデバイスで利用可能になったが、当初は言語を英語に設定する必要があった 。その後Googleではユーザーが言語を変更できるようにしている。音声認識機能を初めて使用したときに音声データをGoogleアカウントに紐づけるかどうかユーザーにメッセージが表示される。ユーザーがこのサービスに同意することを決めた場合、Googleはソフトウェアをユーザーの声に合わせてトレーニングすることができる[11]

Amazon.comはAndroidのカスタム版を使い音声インターフェースを提供するAmazon Echoを販売している。

Microsoft Windows Phone[編集]

Windows Phoneはマイクロソフトの携帯端末のOSである。Windows Phone 7.5において、スピーチアプリはユーザーに依存しないため、連絡先リストの誰かに電話をかけたり、任意の番号に電話、最後の番号へリダイアル、テキストメッセージの送信、ボイスメールに電話、アプリを開く、予定を読む、電話のステータスを問い合わせ、ネット検索などにおいて使用できる[12][13] 。加えて、通話中にスピーチを使用することもできる。電話をかけている間に番号を押しスピーカーフォンをオンにするか、誰かに電話をかけることで現在の通話を保留にする

Windows 10ではCortanaが導入され、以前にWindows Phoneで使われていた音声操作を置き換えた。

iOS[編集]

Appleは、iOS 3の新機能として音声操作をiOSデバイスファミリーに追加した。その後iPhone 4SiPhone 5、iPad(第3世代第4世代)、iPad Mini、およびiPod Touch(第5世代)の全機種により新しくより複雑な音声操作システム「Siri」が搭載されており、古いデバイスにまだ存在する音声操作を置き換えてた。 Siriはユーザー独立型の音声認識機能であり、ユーザーが音声コマンドを出すことを可能にする。 Siriによりユーザーは、テキストメッセージの送信、天気の確認、アラームの設定、情報の検索、会議のスケジュール設定、Eメールの送信、連絡先の検索、アラームの設定、道順の取得、株価のチェック、 タイマーの設定、サンプルの音声コマンドクエリの例を尋ねることなどの音声コマンドを出すことができる[14] 。加えてSiriはBluetoothヘッドセットと有線ヘッドフォンで動作する[15]

自動車での音声認識[編集]

自動車の技術が進歩するにつれ更なる機能が自動車に追加されるが、それらの機能はドライバーの気をそらす可能性が高い。CNETによれば自動車用の音声コマンドはドライバーが気を取られずにコマンドを出せるようになるべきとされた。CNETは NuanceがSiriに類似した自動車用のソフトウェアを将来開発すると示唆していると述べた[16] 。今日の市場の大半の音声認識ソフトウェアは約50~60の音声コマンドしかないが「Ford Sync」は1万の音声コマンドがある 。しかし、CNETは運転中にユーザーがやりたいと思うさまざまな作業や複雑さを考えれば、1万件の音声コマンドでさえ十分ではないことを示唆している 。自動車向けのボイスコマンドはドライバーが近くのレストランやガソリンスタンド、道順、道路の状態及び近隣のホテルの場所を探したりできるため携帯向けやコンピューター向けのものとは異なっている 。現在、テクノロジーの進歩により、ガーミンのようなポータブルGPSと自動車メーカーのナビゲーションシステムの両方にドライバーは音声コマンドを出せるようになっている[17]

自動車メーカーによって提供される音声コマンドシステムのリストは以下の通り

関連リンク[編集]

参考文献[編集]

  1. ^ "Washing Machine Voice Control". Appliance Magazine. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  2. ^ Borzo, Jeanette (2007年2月8日). “Now You're Talking”. CNN Money. http://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm 2012年4月25日閲覧。 
  3. ^ Voice Control, the End of the TV Remote?”. Business Week. 2012年5月1日閲覧。
  4. ^ "Windows Vista Built In Speech". Windows Vista. 2012年4月25日閲覧
  5. ^ "Speech Operation On Vista". Microsoft. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  6. ^ "Speech Recognition Set Up". Microsoft. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  7. ^ "Physical and Motor Skills". Apple. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  8. ^ "DragonNaturallySpeaking PC". Nuance. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  9. ^ "DragonNaturallySpeaking Mac". Nuance. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  10. ^ "Voice Actions". Google. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  11. ^ Google Voice Search For Android Can Now Be "Trained" To Your Voice”. 2012年4月24日閲覧。
  12. ^ Using Voice Command”. Microsoft. 2012年4月24日閲覧。
  13. ^ Using Voice Commands”. Microsoft. 2012年4月27日閲覧。
  14. ^ Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features”. Apple. 2012年4月27日閲覧。
  15. ^ "Siri FAQ". Apple. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  16. ^ "Siri Like Voice". CNET. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)
  17. ^ "Portable GPS With Voice". CNET. {{cite web}}: Cite webテンプレートでは|access-date=引数が必須です。 (説明)