波形接続型音声合成

波形接続合成（英: concatenative synthesis;^{[脚注 1]} あるいは素片接続型、素片連結方式、連結的合成）とは、録音された音の断片（「単位」と呼ばれる）を連結し合成する手法である。単位の長さに厳密な定義はないが、およそ10 ms～1秒程度の範囲である。この手法は音声合成や楽音合成で、多数の録音フレーズを集めたデータベース（音声コーパスや歌手ライブラリ、楽音コーパス）から、ユーザが指定したフレーズの音を生成するのに使用される。

音声

詳細は「音声合成#波形接続型音声合成」を参照

波形接続合成による音声合成は、「波形接続型音声合成」と表現される事がある。^{[脚注 2]}

歌唱

「ボーカルシンセサイザー」も参照

音楽

音楽のための波形接続合成は、2000年代に特にSchwarz^[1]と Pachet^[2]の研究を通じて開発が始まった（musaicingとも呼ばれる^{[要検証 – ノート]}）。基本技術は音声の場合と同様だが、音声と音楽の性質の違いにより相違がある: たとえば分割は音素や音節等の単位ではなく、ノートやイベント等のサブ単位^[要説明]で行なう。^[1]^[3]^[4]

波形接続合成による楽音合成の研究事例については、Schwarzがサーベイ結果を公開している^[5]。

脚注

[脚注の使い方]

^
この記事は、音声 (人の声) 以外のconcatenate synthesisを主に扱う記事なので、音声限定の訳語「波形接続型音声合成」ではなく、より広いニュアンスを持つ訳語「波形接続合成」を用いる。この分野の開拓者Schwarzのサーベイ結果 Schwarz 2006 によれば、国際的に広く認知された成果はまだ日本からは出現しておらず、日本語による定番訳語は不明である。なお「波形接続合成」という表現は、たとえば下記をはじめとする十数件程度の論文で使用されている:
“"波形接続合成"の検索結果: 約14件”, Google Scholar 2013年2月15日閲覧。
- 望月, 亮; 本多, 高; 新居, 康彦 (1996-09-01), “VCV波形接続合成のためのピッチ変換法の検討”, 日本音響学会研究発表会講演論文集 1996 (2): 233–234
^
「波形接続型音声合成」という表現の初出論文および一般性は定かではないが、たとえば下記をはじめ数十件程度の日本語論文で使用されている:
“"波形接続型音声合成"の検索結果: 約55件”. Google Scholar. 2013年2月15日閲覧。
- 居村太介; 村上仁一; 池原悟 (2008年3月). “波形接続型音声合成のフレーズへの適用” (PDF). 言語処理学会第14回年次大会発表論文集. 鳥取大学工学部知能情報工学科. 2013年1月30日閲覧。
- 大本浩司 (2000年11月8日). “音声イメージの製品開発への応用”. 日本心理学会第64回大会. オムロンIT研究所. 2013年1月30日閲覧。
- 世木寛之; 田高礼子; 清山信正; 都木徹 (2009年2月). “ニュース番組の収録音声を利用した波形接続型音声合成システム” (PDF). 情報処理学会論文誌 Vol.50 No.2. 情報処理学会. pp. 575-586. 2013年1月30日閲覧。

参考文献

外部リンク

[1] この記事は、音声 (人の声) 以外のconcatenate synthesisを主に扱う記事なので、音声限定の訳語「波形接続型音声合成」ではなく、より広いニュアンスを持つ訳語「波形接続合成」を用いる。この分野の開拓者Schwarzのサーベイ結果 Schwarz 2006 によれば、国際的に広く認知された成果はまだ日本からは出現しておらず、日本語による定番訳語は不明である。なお「波形接続合成」という表現は、たとえば下記をはじめとする十数件程度の論文で使用されている:
“"波形接続合成"の検索結果: 約14件”, Google Scholar 2013年2月15日閲覧。
望月, 亮; 本多, 高; 新居, 康彦 (1996-09-01), “VCV波形接続合成のためのピッチ変換法の検討”, 日本音響学会研究発表会講演論文集 1996 (2): 233–234

[2] 望月, 亮; 本多, 高; 新居, 康彦 (1996-09-01), “VCV波形接続合成のためのピッチ変換法の検討”, 日本音響学会研究発表会講演論文集 1996 (2): 233–234

[2] 「波形接続型音声合成」という表現の初出論文および一般性は定かではないが、たとえば下記をはじめ数十件程度の日本語論文で使用されている:
“"波形接続型音声合成"の検索結果: 約55件”. Google Scholar. 2013年2月15日閲覧。
居村太介; 村上仁一; 池原悟 (2008年3月). “波形接続型音声合成のフレーズへの適用” (PDF). 言語処理学会第14回年次大会発表論文集. 鳥取大学工学部知能情報工学科. 2013年1月30日閲覧。

大本浩司 (2000年11月8日). “音声イメージの製品開発への応用”. 日本心理学会第64回大会. オムロンIT研究所. 2013年1月30日閲覧。

世木寛之; 田高礼子; 清山信正; 都木徹 (2009年2月). “ニュース番組の収録音声を利用した波形接続型音声合成システム” (PDF). 情報処理学会論文誌 Vol.50 No.2. 情報処理学会. pp. 575-586. 2013年1月30日閲覧。

[4] 居村太介; 村上仁一; 池原悟 (2008年3月). “波形接続型音声合成のフレーズへの適用” (PDF). 言語処理学会第14回年次大会発表論文集. 鳥取大学工学部知能情報工学科. 2013年1月30日閲覧。

[5] 大本浩司 (2000年11月8日). “音声イメージの製品開発への応用”. 日本心理学会第64回大会. オムロンIT研究所. 2013年1月30日閲覧。

[6] 世木寛之; 田高礼子; 清山信正; 都木徹 (2009年2月). “ニュース番組の収録音声を利用した波形接続型音声合成システム” (PDF). 情報処理学会論文誌 Vol.50 No.2. 情報処理学会. pp. 575-586. 2013年1月30日閲覧。

[schwarzphd-3] Schwarz, Diemo (2004-01-23), Data-Driven Concatenative Sound Synthesis

[pachet-4] Zils, A.; Pachet, F. (2001), “Musical Mosaicing”, Proceedings of the COST G-6 Conference on Digital Audio Effects (DaFx-01), University of Limerick: 39–44, オリジナルの(2002-08-09)時点におけるアーカイブ。

[5] Schwarz, D. (2005), “Current research in Concatenative Sound Synthesis”, Proceedings of the International Computer Music Conference (ICMC)

[6] Maestre, E.; Ramírez, R.; Kersten, S.; Serra, X. (2009), “Expressive Concatenative Synthesis by Reusing Samples from Real Performance Recordings”, Computer Music Journal 33 (4): 23–42, doi:10.1162/comj.2009.33.4.23

[7] Schwarz, D. (2006), Corpus-Based Sound Synthesis Survey, IMTR, IRCAM

[脚注 1]

[脚注 2]

[1]

[2]

[3]

[4]

[5]

音声

歌唱

音楽

関連項目

脚注

参考文献

外部リンク