UTAU

UTAU
UTAU-Synth
開発元	飴屋プロジェクト
最新版	Ver0.4.19(Win/0.4.系)、Ver0.2.76(Win/0.2.系)、1.0.0 b21(Mac) / 2024年5月23日(Win/0.4.系)、2010年5月25日(Win/0.2.系)、2024年2月9日(Mac)
使用エンジン	AquesTalk;
対応OS	Windows XP、Windows Vista、Mac OS X
種別	DTM、シーケンサー、音声処理
ライセンス	シェアウェア(ドネーションウェア)フリーウェアとしても使用可
公式サイト	歌声合成ツールUTAU サポートページ
	テンプレートを表示

UTAUとは、飴屋／菖蒲（あめや・あやめ）がフリーウェアとして配布している、Windows、Mac OS用歌声合成ソフトウェアである。2008年3月に配布が開始された。2011年5月27日にはMac OS X版である「UTAU-Synth」が公開された。歌唱合成ソフトでは、「ユーザーが声を採取して作成した音源を歌唱（音高の調整など）させることが可能」なソフトの一つである。

概要

ピアノロール上にノートを挿入して動かし、完成した譜面のノートにある文字から音声ファイルを使用して結合し、1つの音声ファイルを作ることができるソフトウェアである。ソフトウェアの分類としては音声合成の一派に当たるが、どちらかと言えば歌唱に特化した「歌唱合成」(波形接続型)に分類される。厳密に言えば、「音声データの挿入(切り貼り)・編集による歌唱ソフトウェア（シーケンサー、あるいはサンプラー）」に当てはまり、より専門的に特化した合成ツールと比べ、いくつか差異がある。UTAUの機能でまとめるなら、「音声をまとめたファイルを使用し、フォルマントを保ちながらピッチを変更でき、タイムストレッチに対応した音声結合ツール」の1つである。

制作の過程で、VOCALOIDと同じ3部構造を持ち（VOCALOIDの項、及び下記の節を参照）、それらの構成内容にユーザーが手を加えられるのも特徴。

公開以後、ニコニコ動画やYouTubeにて楽曲のヴォーカルにUTAUで作成した歌を加えた動画などが投稿され、またUTAUで使用される事を目的とした音声ファイルが少しずつアップロードされ、一つのコミュニティを生み出す。2009年には窓の杜大賞にて金賞を受賞した^[1]。

2011年1月19日、着うたや着声配信業務も手掛けているドワンゴに音声ファイルの簡易生成用に仕様を変えたエンジンの開発・提供し、『歌う@mobile』のサービスが行われている^[2]。

また、UTAUをボーカルとして使用したCD楽曲も商業流通で販売されている。

UTAUの構成

UTAUは、

録音（サンプリング）した音声データと、UTAUで読み込む際に使用する設定データをまとめた音声ライブラリ
ピアノロール上でノート（音符）を配置・単語を入力し、ピッチ、音量の推移、その他加工編集操作を行うエディタ部
ライブラリデータを読み込み、GUIで作成した楽譜データに基づいて、resampler、あるいは処理が類似した加工機で加工する音声伸縮エンジン部

の3つに分けられている。音声ライブラリは外部データ、GUIとエンジンはコアという形で分類される。音声ライブラリには、アクエストのテキスト読上げ用ソフトウェア「AquesTalk」から作成したものをデフォルト音声^{[注 1]}として同梱している。

読み込む音声ファイルは、UTAUエディタ上のノートに入力された文字記号とライブラリ内の音声ファイル名を照合して取り出す仕様である。ただし、prefix.mapという設定ファイルによって音高に応じて読みこむファイルが設定されている場合は、それにしたがって音声ファイル名を照合する。ライブラリ内の音声ファイルには、それぞれに音高が設定されている。合成される歌声は、元になる音声ファイルと、UTAUエディタ上の音高（実際に発声される音高）との差に応じて音高が調整される。音高の調整時には、フォルマントを加工し、声質の極端な変化を防いでいる。フォルマントフィルタは任意で使用しないようにすることも可能。

エディタ部

resamplerに受け渡すための楽譜情報・加工設定データを入力・出力する部分である。デフォルトでは、ピアノロール上には音符データしか表示されていないが、表示設定を切り替えることでピッチ曲線と音量の減衰情報、その他音声加工用の各種パラメータの文字が視覚的に表示される。1トラックのみ作成可能で音符の重ね置きはできない。ただし、音符上での原音設定によっては声を被せて1トラック内でコーラスさせることも可能。また、Mac OS X版においては、単一の音源に限り8つのマルチチャンネルに対応している。休符はrで表記される。

作成した楽譜および発音データは、ustファイルとして保存される。楽譜データをresamplerに通すことで音声ファイルであるwaveファイルとして出力可能。また標準MIDIファイル (SMF) 形式のMIDIデータの読み込みに対応し、VocaloidのVSQファイルにも対応しているため、それらのファイルとUTAUとの間でデータを互換させることも可能である。

各音符には、ピッチ調整やエンベロープ、音を加工するためのオプション設定が可能。オプション設定で使われる加工処理用パラメータは、使用するエンジンの伸縮加工部（resampler等）によって使用できるものに差異がある。その内容は、声を男性的・女性的に変化するもの、ローパス・ハイパスフィルタ、原音のピッチ変動の揺れ幅操作、ノイズの低減や追加(吐息成分(ホワイトノイズ)の追加。VOCALOIDエディタのパラメータで言うブレシネスに相当)などがある。

操作系の簡易化・補助も、母音結合やオートピッチ、オートビブラート、総合的な機能としてボタン選択によりビブラートの自動設定や母音結合、ポルタメント等を自動で行う「おま☆かせ」が使用できる。オートピッチについてはより具体的に、且つ簡易に操作が行えるようにするためのAutopitch Mode2（通称Mode2）という操作体系に切り替えることが可能。

ドネーションウェアとしてのレジスト登録を行うと、レンダリング後に生成した波形を書きだし、再度調整することが可能。

エディタ部ではプラグインを用いることも可能で、これにより便利な拡張機能を使用できる。プラグインは、有志が制作したものが特定個所で配布されている。ちなみに、エディタの配色はsetting.iniのパラメータを書き換えることで変更することができる。

音声ライブラリの構成

UTAUで使用する音源は、日本語の音素や音節に切り出した音声ファイルなどを1つにまとめてライブラリ・ファイルとしたものであり、基本となる複数の音声ファイルに加えて付加情報のファイルなどから構成される。

WAV音声ファイル集。エンジン部で加工データをもとに使用する。
音源の説明や表現・利用についての規約テキストファイル：readme.txt
音声の発音・消音部、伸縮可能部、前後の音と被せられる範囲を数値でまとめた原音設定表:oto.ini(UTAU-SYNTHはoto_ini.txt)
原音の基音・音色関係を設定し、音高変更時の加工波形で使用する周波数表:frqファイル。使用するエンジンによって専用ファイルを用いる
違う音高の音声で同名のファイルを混載した、識別情報:prefix.map
その他
- アイコンとして使用する画像ファイル
- 単体の台詞音声、イラスト素材など

原音設定表は、UTAUで使用する音源の中でも、後述の音源方式を含む発音にかかわる基本かつ重要部分。エディタ部で楽譜データから加工データを出力する際、音源ファイルにあるこの原音設定表を参照も参照しデータを作成する。設定表は、UTAUでもGUIで設定が可能であり、周波数表は該当する音声を再生する際に自動的に作成されるが、どちらもファイルが膨大であるほど設定と作成に時間がかかるほか、誤差が生じることもある^{[注 2]}ため、あらかじめ同梱されている場合が多い。原音設定は、他のユーザーによって配布される場合もある。まとめた音声ライブラリは、UTAUのフォルダ内に直接移動するか、zipのままUTAUのアイコンに受け渡すことで使用可能になる。zipファイルで受け渡す場合は、uarと拡張子を書き変えて明示することができる。また、DLL化することで容量を圧縮できる。このDLL化は、UTAUのデフォルト音声で使用されている。

特殊な音声ファイルに、音声合成の連結的合成の用法（VCVの合成(ダイフォン・トライフォン接続、母音-子音-母音）を利用した、通称「連続音音声ファイル」^{[注 3]}を使用することで、単一音声を使用した時のものと比べて無調整でもある程度発音の流れを自然にすることができる^{[注 4]}。録音するモーラの長さによってもその扱いが変化するが、モーラ数とそれに伴って変化する収録音源数によって音源設定もやや複雑で、音源取り直しの手間や収録時間も相対的にかかるようになる。

これから発展して、日本語だけでなくそれ以外の発音以外での歌い方にも滑らかに適合するよう、母音-子音(VC)で構成された音素を挟みこみ「CV VC CV」な流れになるように分けて作る「CVVC音源」という手法や、「連続音」の流れをくんで1音素が子音-母音-子音(CVC)で構成された「CVC音源」、「れんたんじゅつ」という調整初心者向けに作られた「連単音」音源(連続した音節で収録した音声ファイルを単独音音源のように設定する)の作り方も生まれた。

音声ファイルデータそのものは独立したファイルであるため、他の波形編集ソフトやDAW等のソフトに使用できる。

音声ライブラリの使われ方

音声ライブラリは、ユーザーが自分で必要な音声データを採集して制作し、使用することができる。人間の声である必要もなく、楽器の音や猫の鳴き声で音を奏でる・歌わせるなどの使い方も登場している。これらの作られたライブラリは、有志によっていくつかの無償音声データが提供されているものもあれば（諸海外では配布サイトをボイスバンク (VoiceBank) と呼ぶところがある）、商業関係の企画や、サークル活動の一環として制作されて販売されるものもある。キャラクター・ボーカル・シリーズに倣って、（主にUTAU用の）キャラクター設定を付加している所もある。

音声ライブラリは、多重音声やささやき声、子音のみ等といった音声ファイルを用意することで表現力を高めることも可能となっている。日本語にない発音を含む言語に対応したライブラリを作る場合、入力にX-SAMPAなどの音声記号を用いることにより、多言語に対応したライブラリも存在する^[3]。

エンジン部

エンジン部にあたる波形合成器は、エディタ部で作成した加工データと音声ライブラリを使い、音声ファイルを出力する部分。伸縮器と結合器で構成されている。デフォルトで、伸縮部のresamplerと結合部のwavtoolがそれぞれ同梱されている。

出力させる音声ファイルは、エディタ部で範囲指定した部分を再生することも可能。エンジン自体は独立したものであるため、同じような合成をおこなうものであれば、エンジン部だけを入れ替えることも可能。エンジン部は、作者が公開しているものから有志が作成したものもある。デフォルトで搭載されている音声伸縮エンジンであるresamplerも同様に、処理の仕方が多少異なるバージョンが複数ある。基本的に使用できるエンジンは、エディタ部で入力したustファイルに対して1つであるが、ツールを併用することで複数のエンジンをノートごとに指定し切り替えることも可能。

エンジンによって生成される音声の音質及び加工結果が異なるほか、結合ファイルが生成されるまでの処理時間が異なったり、処理の仕様に合わせて独自の波形加工用フラグオプションを付け加えることもできる。ただし、エンジンの処理仕様に適する原音の仕様との相性があり、適合しないエンジンと音源では音質が悪化したり、異常処理が起きることもある。

生成方法はバッチ処理でデータをまとめて生成するため、UTAUのエディタ上でオートスクロールさせる場合は一度キャッシュファイルを作成しなければならない。エンジンによっては、処理で生じるキャッシュファイルの量が増大することもある。出力時は仕様上単一で処理を行うが、DLLの使用やマルチスレッド支援ツールの使用で高速化ができるようになっている。

なお、VOCALOIDで使うvsqファイルをGUIで編集可能なソフトウェア「Cadencii」は、外部から合成器を使用する作りとなっており、UTAUの波形合成器とも連動させることができ、リアルタイム再生を行うことができる。

開発の経緯

2007年9月に初音ミクが発売とともに大きな話題になり、ニコニコ動画に多くの既存曲、オリジナル曲がアップロードされるようになると、かねてよりニコニコ動画にTHE IDOLM@STER関連のMAD作品を発表していた、いわゆる「職人」と呼ばれるユーザーたちは、その動きを面白がり、THE IDOLM@STERに関する多くの歌から、曲の一音一音を切り貼りして別の歌に仕立て、それをニコニコ動画にアップロードしてその出来栄えを競い合っていく。THE IDOLM@STERは、短い期間に大量の曲が作られており、1人のアーティストの膨大な音声データを簡単に集めることが可能であったため、切り貼りで別の曲に仕立てることが出来た。このような手作業による声の繋ぎ合わせでの歌の制作を「人力Vocaloid」と称して楽しんでいた。^[要出典]

この流れの中で、ニコニコ動画に自作ラップを投稿するなどの活動を行うミュージシャンの一人だったLOLI.COMは、自らの声を収録した音声ファイルを人力Vocaloid用の素材とし、「炉利音コム」と称して公開した。UTAUの作者となる飴屋／菖蒲も、炉利音コムを使用して動画を投稿していた。飴屋／菖蒲は、分解された素材から歌詞への再結合にAudacity、Audacityで作成した音源を楽曲の音高に合わせるためのMelodyneの体験版、それによってできた音声の録音にWindows付属のサウンドレコーダーを使用して作品を作った結果、相当手間がかかることを動画内で記載している。このように人力Vocaloidに歌わせるには膨大な手間がかかるため、切り貼りを簡単に出来る「人力Vocaloid支援ツール」としてUTAUは開発された。^[要出典]

ツール自体は、2008年 1月11日にニコニコ動画で発表されている。その時点では、コマンドラインツールとバッチファイルを使用した「Wavtool」によるので、音声ファイルの中で切り出すエンベロープにも近い、音の時間指定の調節を可能としたものであった。音階は事前に音声を加工したファイルを作りまとめておく必要があった。^[要出典]

2008年2月05日に単音の伸縮機能と音高変更^{[注 5]}、さらにGUIを追加した動画が公開されている。音源は、JPNTAKE^[4] が出力した音節を加工して使用された。2008年2月20日には、原音設定に該当する単音伸縮における伸縮境界点の設定(タイムストレッチ)と、単音単位でのピッチベンドの調節を可能にした動画が公開され、基本的な仕様はほぼ完成された。この時点では、作者が「人力Vocaloid」のツールとして使用していたMELODYNEに劣らないように改良が加えられている。2008年3月6日に仕様説明の動画がニコニコ動画で公開され、同年3月15日にツールの名前をUTAUと命名し現在に至る。

作者はもともと業務系プログラマで音声合成専門ではなかったが、UTAUの制作を通じて知識を取り入れて制作がすすめられた。公開後も改良が重ねられており、他の音声合成関係開発者たちと情報を重ねて開発が進められている^[5]。

ただし、飴屋／菖蒲は、2008年6月に「人力Vocaloidは人の手作業で膨大な手間をかけて作られたものであり、機械で生成するのは方向性が違うため、『人力ボーカロイド支援ツール』という名称を辞退する」とした。これによってUTAUは歌声合成ソフトウェアという名称になっている^[6]。

肖像権・著作権とデモンストレーション用音声データの変更

UTAUは、あらゆる音声を用いて歌声を作成する事が可能なため、テレビ番組、CD、DVDソフトから既存の人物の音声を採取し、それをデータとして用いることが可能である。作者の飴屋／菖蒲も、当初は『HAND MAID メイのボイスドラマCD』の一部を用いて、デモンストレーションを行っていた。

これらを背景として2008年5月に飴屋／菖蒲は、権利関係がクリアにならない限り、当面はその音声データを用いたデモンストレーションを行わないとした^[7]。

脚注

注釈

^ 音源名「UTAUデフォルト」。キャラクタ名は唄音ウタ、通称デフォ子。
^ 原音の周波数が極端に高い、低い場合は設定値の限界に追い付かず、またデスボイスを始めとした息成分(ノイズ)が濃厚で基音が正常に検出されにくい音源は、手動で周波数表を修正しないと正しく再生されない、または音高がおかしくなる場合がある。
^ 母音と子音+母音で構成される音源は、上記連続音と区別するため「単独音」と呼ばれる事もある。
^ 使用する場合、音素同士を接続する部分でクロスフェードさせる必要がある。CVVC音源でも同様。
^ Resamplerに該当する。音高変更で用いるフォルマント処理に関しては彼独自のアルゴリズムで制作された。

出典

^ 窓の杜 - 2009年窓の杜大賞
^ UTAUについて “UTAU”のモバイル版『歌う@mobile』
^ http://www.youtube.com/watch?v=Dpy2ZBoZ924
^ https://web.archive.org/web/20070524215112/http://www.geocities.jp/asaamori/yy.jpntake.html AquesTalkのエンジンを使用したテキスト読み上げソフト。
^ 四本淑三 (2010年8月14日). “あなたの声で歌うソフト「UTAU」の奇妙な世界”. ASCII.jp. 2020年3月25日閲覧。
^ ““真の人力Vocaloid”とは”. FC2 Blog - ＵＴＡＵについて (2008年6月1日). 2020年3月25日閲覧。
^ http://utau2008.blog47.fc2.com/blog-entry-38.html

外部リンク

この項目は、ソフトウェアに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[3] 音源名「UTAUデフォルト」。キャラクタ名は唄音ウタ、通称デフォ子。

[4] 原音の周波数が極端に高い、低い場合は設定値の限界に追い付かず、またデスボイスを始めとした息成分(ノイズ)が濃厚で基音が正常に検出されにくい音源は、手動で周波数表を修正しないと正しく再生されない、または音高がおかしくなる場合がある。

[5] 母音と子音+母音で構成される音源は、上記連続音と区別するため「単独音」と呼ばれる事もある。

[6] 使用する場合、音素同士を接続する部分でクロスフェードさせる必要がある。CVVC音源でも同様。

[8] Resamplerに該当する。音高変更で用いるフォルマント処理に関しては彼独自のアルゴリズムで制作された。

[1] 窓の杜 - 2009年窓の杜大賞

[2] UTAUについて “UTAU”のモバイル版『歌う@mobile』

[7] ttp://www.youtube.com/watch?v=Dpy2ZBoZ924

[JPNTAKE-9] ttps://web.archive.org/web/20070524215112/http://www.geocities.jp/asaamori/yy.jpntake.html AquesTalkのエンジンを使用したテキスト読み上げソフト。

[10] 四本淑三 (2010年8月14日). “あなたの声で歌うソフト「UTAU」の奇妙な世界”. ASCII.jp. 2020年3月25日閲覧。

[11] ““真の人力Vocaloid”とは”. FC2 Blog - ＵＴＡＵについて (2008年6月1日). 2020年3月25日閲覧。

[12] ttp://utau2008.blog47.fc2.com/blog-entry-38.html

[1]

[2]

[注 1]

[注 2]

[注 3]

[注 4]

[3]

[注 5]

[4]

[5]

[6]

[7]