UTAU
| 開発元 | 飴屋プロジェクト |
|---|---|
| 最新版 | Ver0.2.76(Win)、1.0.0b15(Mac)(2010年5月25日(Win)、2011年9月28日(Mac)) |
| 対応OS | Windows XP、Windows Vista、Mac OS X |
| 種別 | DTM、シーケンサー、音声処理 |
| ライセンス | シェアウェア(ドネーションウェア) |
| 公式サイト | 歌声合成ツールUTAU サポートページ |
UTAUとは、飴屋/菖蒲(あめや・あやめ)がフリーウェアとして配布している、Windows、MacOS用歌声合成ソフトウェアである。2008年3月に配布が開始された。2011年5月27日にはMac OS X版である「UTAU-Synth」が公開された。 歌唱合成ソフトでは、「ユーザーが声を採取して作成した音源を歌唱(音階の調整など)させることが可能」なソフトの一つである。
目次 |
[編集] 概要
ピアノロール上にノートを挿入して動かし、完成した譜面のノートにある文字から音声ファイルを使用して結合し、一つの音声ファイルを作ることが出来るソフトウェアである。厳密なソフトウェアの分類としては、以下で説明されるとおり音声合成というより「音声データの挿入(切り貼り)・編集による歌唱ソフトウェア(シーケンサー、あるいはサンプラー)」に当てはまり、Vocaloid等の「歌唱目的に特化した音声合成ソフトウェア」とは、その原理となる合成方法や性質ごと異なる物である。UTAUの機能でまとめるなら、「音声をまとめたファイルを使用し、フォルマントを保ちながらピッチを変更でき、タイムストレッチに対応した音声結合ツール」の1つである。
公開以後、ニコニコ動画やyoutubeにて楽曲のヴォーカルにUTAUで作成した歌を加えた動画などが投稿され、またUTAUで使用される事を目的とした音声ファイルが少しずつアップロードされ、一つのコミュニティを生み出す。2009年には窓の杜大賞にて金賞を受賞した[1]。
2011年1月19日、着うたや着声配信業務も手掛けているドワンゴに音声ファイルの簡易生成用に仕様を変えたエンジンの開発・提供し、『歌う@mobile』のサービスが行われている[2]。
[編集] UTAUの構成
UTAUは、
- 録音(サンプリング)した音声データと、UTAUで読み込む際に使用する設定データをまとめた音声ライブラリ
- ピアノロール上でノート(音符)を配置・単語を入力し、ピッチ、音量の推移、その他加工編集操作を行うエディタ部
- ライブラリデータを読み込み、GUIで作成した楽譜データに基づいて、resampler、あるいは処理が類似した加工機で加工する音声伸縮エンジン部
の3つに分けられている。音声ライブラリは外部データ、GUIとエンジンはコアという形で分類される。音声ライブラリには、アクエストのテキスト読上げ用ソフトウェア「AquesTalk」から作成したものをデフォルト音声(音源名「UTAUデフォルト」。キャラクタ名は唄音ウタ、通称デフォ子)として同梱している。
読み込む音声ファイルは、UTAU上のノートに入力された文字記号とライブラリ内のファイル名を照合して取り出す仕様である。ただし、prefix.mapという設定ファイルによって音階に応じて読みこむファイルが識別されている場合は、それにしたがって識別された方のファイルを読み込む。 使用する音声ライブラリは、エディタ上の音階とファイルで想定されたキーの差に応じてフォルマントを加工し、声質の極端な変化を防いでいる。フォルマントフィルタは任意で使用しないようにすることも可能。
[編集] エディタ部
resamplerに受け渡すための楽譜情報・加工設定データを入力する部分である。デフォルトでは、ピアノロール上には音符データしか表示されていないが、表示設定を切り替えることでピッチ曲線と音量の減衰情報、その他音声加工用の各種パラメータの文字が視覚的に表示される。1トラックのみ作成可能で音符の重ね置きはできない。ただし、音符上での原音設定によっては声を被せて1トラック内でコーラスさせることも可能。また、MacOSX版においては、単一の音源に限り8つのマルチチャンネルに対応している。休符はrで表記される。
作成した楽譜および発音データは、ustファイルとして保存される。楽譜データをresamplerに通すことで音声ファイルであるwaveファイルとして出力可能。また標準MIDIファイル(SMF)形式のMIDIデータの読み込みに対応し、VocaloidのVSQファイルにも対応しているため、それらのファイルとUTAUとの間でデータを互換させることも可能である。
各音符には、ピッチ調整やエンベロープ、音を加工するためのオプション設定が可能。オプション設定で使われるパラメータは、使用するresamplerによって使えるものとそうでないものがある。その内容は、声を男性的・女性的に変化するもの、ローパス・ハイパスフィルタ、原音のピッチ変動の揺れ幅操作、ノイズの低減や追加(VOCALOIDエディタのパラメータで言うブレシネスに相当)などがある。
操作系の簡易化・補助も、母音結合やオートピッチ、オートビブラート、総合的な機能としてボタン選択によりビブラートの自動設定や母音結合、ポルタメント等を自動で行う「おま☆かせ」が使用できる。オートピッチについてはより具体的に、且つ簡易に操作が行えるようにするためのAutopitch Mode2(通称Mode2)という操作体系に切り替えることが可能。
ドネーションウェアとしてのレジスト登録を行うと、レンダリング後に生成した波形を書きだし、再度調整することが可能。
エディタ部ではプラグインを用いることも可能で、これにより便利な拡張機能を使用できる。プラグインは、有志が制作したものが特定個所で配布されている。ちなみに、エディタの配色はsetting.iniのパラメータを書き換えることで変更することができる。
[編集] 音声ライブラリの構成
UTAUで使用する音源は、基本的に日本語の音素・音節に切り出した音声ファイル(wavファイル(音声の波形ファイル))を一つのファイルにまとめてライブラリファイルとしたものである。ライブラリには音声ファイル集のほかに、
- 音声の発音・消音部、伸縮可能部、前後の音と被せられる範囲を数値でまとめた原音設定表、oto.ini
- 音階再生時に使用する周波数表(原音の音階変更加工用)、frqファイル
- 違う音階の音声で同名のファイルを混載した場合、識別して使用するためのprefix.map
- その他、音源の説明や表現・利用についての規約に関するreadmeファイル
- アイコンとして使用する画像ファイル
が同梱できる。
原音設定表はUTAUでもGUIで設定が可能であり、周波数表は該当する音声を再生する際に自動的に作成されるが、どちらもファイルが膨大であるほど設定と作成に時間がかかるほか、誤差が生じることもある[3]ため、あらかじめ同梱されている場合が多い。原音設定は、他のユーザーによって配布される場合もある。まとめた音声ライブラリは、UTAUのフォルダ内に直接移動するか、zipのままUTAUのアイコンに受け渡すことで使用可能になる。zipファイルで受け渡す場合は、uarと拡張子を書き変えて明示することができる。また、DLL化することで容量を圧縮できる。このDLL化は、UTAUのデフォルト音声で使用されている。
特殊な音声ファイルに、音声合成の連結的合成の用法(VCVの合成(ダイフォン接続)、母音-子音-母音)を利用した、通称「連続音音声ファイル」[4]を使用することで、単一音声を使用した時のものと比べて無調整でもある程度発音の流れを自然にすることができる[5]。録音するモーラの長さによってもその扱いが変化するが、モーラ数とそれに伴って変化する収録音源数によって音源設定もやや複雑で、音源取り直しの手間や収録時間も相対的にかかるようになる。
これから発展して、日本語だけでなくそれ以外の発音以外での歌い方にも滑らかに適合するよう、母音-子音(VC)で構成された音素を挟みこみ「CV VC CV」な流れになるように分けて作る「CVVC音源」という手法や、「連続音」の流れをくんで1音素が子音-母音-子音(CVC)で構成された「CVC音源」、「れんたんじゅつ」という調整初心者向けに作られた「連単音」音源の作り方も生まれた。
なお、音声ファイルデータそのものは独立したファイルであるため、他の波形編集ソフトやDAW等のソフトに使用できる。
[編集] 音声ライブラリの使われ方
音声ライブラリは、ユーザーが自分で必要な音声データを採集して制作し、使用することができる。人間の声である必要もなく、楽器の音や猫の鳴き声で音を奏でる・歌わせるなどの使い方も登場している。これらの作られたライブラリは、有志によっていくつかの無償音声データが提供されているものもあれば(諸海外では配布サイトをボイスバンク(VoiceBank)と呼ぶところがある)、商業関係の企画や、サークル活動の一環として制作されて販売されるものもある。キャラクター・ボーカル・シリーズに倣って、(主にUTAU用の)キャラクター設定を付加している所もある。
音声ライブラリは、多重音声やささやき声、子音のみ等といった音声ファイルを用意することで表現力を高めることも可能となっている。日本語にない発音を含む言語に対応したライブラリを作る場合、入力にX-SAMPAなどの音声記号を用いることにより、多言語に対応したライブラリも存在する[6]。
[編集] エンジン部
エンジン部にあたる波形合成器は、エディタ部で作成した加工データと音声ライブラリを使い、音声ファイルを出力する部分。伸縮器と結合器で構成されている。デフォルトで、伸縮部のresamplerと結合部のwavtoolがそれぞれ同梱されている。
出力させる音声ファイルは、エディタ部で範囲指定した部分を再生することも可能。エンジン自体は独立したものであるため、同じような合成をおこなうものであれば、エンジン部だけを入れ替えることも可能。エンジン部は、作者が公開しているものから有志が作成したものもある。
デフォルトで搭載されている音声伸縮エンジンであるresamplerは、処理の仕方が多少異なるバージョンが複数あり、それによって生成される音声の音質が多少異なっている。生成方法はバッチ処理でデータをまとめて生成するため、UTAUのエディタ上でオートスクロールさせる場合は一度キャッシュファイルを作成しなければならない。出力時は仕様上単一で処理を行うが、DLLの使用やマルチスレッド支援ツールの使用で高速化ができるようになっている。
なお、VOCALOIDで使うvsqファイルをGUIで編集可能なソフトウェア「Cadencii」は、外部から合成器を使用する作りとなっており、UTAUの波形合成器とも連動させることができ、リアルタイム再生を行うことができる。
[編集] 開発の経緯
このソフトの開発には、ニコニコ動画が大いに関わっている。
2007年9月に初音ミクが発売とともに大きな話題になり、ニコニコ動画に多くの既存曲、オリジナル曲がアップロードされるようになると、かねてよりニコニコ動画にTHE IDOLM@STER関連のMAD作品を発表していた、いわゆる「職人」と呼ばれるユーザーたちは、その動きを面白がり、THE IDOLM@STERに関する多くの歌から、曲の一音一音を切り貼りして別の歌に仕立て、それをニコニコ動画にアップロードしてその出来栄えを競い合っていく。このような手作業による声の繋ぎ合わせでの歌の制作を「人力Vocaloid」と称して楽しんでいた。
THE IDOLM@STERは、短い期間に大量の曲が作られており、一人のアーティストの膨大な音声データを簡単に集めることが可能であったため、切り貼りで別の曲に仕立てることが出来た。それでも膨大な手間がかかるため、切り貼りを簡単に出来る「人力Vocaloid支援ツール」として開発された。作者が、後述する最初のツール発表の時も、別の動画で配布していた音声素材を利用し、Melodyneの体験版とWindows付属のサウンドレコーダーを使用して作品を作った結果、相当手間がかかることを記載している。
ツール自体は、2008年1月11日にニコニコ動画で発表されている。その時点では、コマンドラインツールとバッチファイルを使用した「Wavtool」によるので、音声ファイルの中で切り出す音の時間指定(エンベロープにも近い)の調節を可能としたものであった。なお、音階は事前に音声を加工したファイルをつくりまとめておく必要があった。 2008年2月05日に単音の伸縮機能と音程変更(Resamplerに該当する)、さらにGUIを追加した動画が公開されている。音源は、JPNTAKE(AquesTalkのエンジンを使用したテキスト読み上げソフト)が出力した音節を加工して使用された。 2008年2月20日には、原音設定に該当する単音伸縮における伸縮境界点の設定(タイムストレッチ)と、単音単位でのピッチベンドの調節を可能にした動画が公開され、基本的な仕様はほぼ完成された。この時点では、作者が「人力Vocaloid」のツールとして使用していたMELODYNEに劣らないように改良が加えられている。2008年3月6日に仕様説明の動画がニコニコ動画で公開され、同年3月15日にツールの名前をUTAUと命名し現在に至る。
公開後も改良が重ねられており、他の音声合成関係開発者たちと情報を重ねて開発が進められている。
ただし、飴屋/菖蒲は、2008年6月に「人力Vocaloidは人の手作業で膨大な手間をかけて作られたものであり、機械で生成するのは方向性が違うため、『人力ボーカロイド支援ツール』という名称を辞退する」とした。これによってUTAUは歌声合成ソフトウェアという名称になっている。[7]
[編集] 肖像権・著作権とデモンストレーション用音声データの変更
UTAUは、あらゆる音声を用いて歌声を作成する事が可能なため、テレビ番組、CD、DVDソフトから既存の人物の音声を採取し、それをデータとして用いることが可能である。作者の飴屋/菖蒲も、当初は『HAND MAID メイのボイスドラマCD』の一部を用いて、デモンストレーションを行っていた。
これらを背景として2008年5月に飴屋/菖蒲は、権利関係がクリアにならない限り、当面はその音声データを用いたデモンストレーションを行わないとした[8]。
[編集] 脚注
- ^ 窓の杜 - 2009年 窓の杜大賞
- ^ UTAUについて “UTAU”のモバイル版『歌う@mobile』
- ^ 原音の周波数が極端に高い、低い場合は設定値の限界に追い付かず、手動で周波数表を修正しないと正しく再生されない場合がある
- ^ 母音と子音+母音で構成される音源は、上記連続音と区別するため「単独音」と呼ばれる事もある
- ^ 使用する場合、音素同士を接続する部分でクロスフェードさせる必要がある。CVVC音源でも同様
- ^ http://www.youtube.com/watch?v=Dpy2ZBoZ924&feature=player_embedded
- ^ http://utau2008.blog47.fc2.com/blog-entry-51.html
- ^ http://utau2008.blog47.fc2.com/blog-entry-38.html