Warped Linear Predictive Coding

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

Warped Linear Predictive Coding (WLPC、ワープLPC) 、あるいはWarped Linear Prediction(WLP、ワープLP)は線形予測符号の一種で、通常の線形予測での周波数特性をバーク尺度メル尺度のような人間の聴感特性に合わせて変形させることに特徴がある。WLPC は、周波数スペクトルを人間の聴覚に合わせた分解能でモデル化することができ、より少ないパラメータで音の情報を表現することができるため、音声認識や広帯域音声符号化などに向いている。

概要[編集]

線形予測符号方式では、人間のを声道の周波数選択特性と音源である声帯などの音の特性でモデル化し、声道に相当する合成フィルターのパラメータとして線形予測係数を用いる。 線形予測では一定の時間遅延ごとの信号から現在の信号を予測する。Warped Linear Predictive Coding(WLPC)では一定の遅延ではなく周波数ごとに遅延時間が異なるような伝達関数を用いる。

Z変換で表現すると、通常の線形予測で使われる単位遅延 z^{-1} の代わりに以下の特性を持つオールパスフィルタを使用する [1]。 これは信号の振幅に影響を与えず周波数ごとの遅延時間のみを変える。

D(z)=\frac{z^{-1} -\lambda}{1-\lambda z^{-1}} \quad \left(-1<\lambda <1\right)

ここで λ は周波数特性をどの程度変形させるかを指定する「ワープ係数」で、λ が 0 であれば通常の線形予測になる。

人間の聴感特性は周波数ごとに一様ではなく、例えば聴覚上の周波数分解能に関係する臨界帯域(critical band)は周波数が高くなるほど広くなる。臨界帯域は500Hz以下の周波数では100Hz程度だが、それ以上では周波数が上がるほど広くなりほぼ対数的な特性になる[2]。聴覚上の周波数ごとの分解能や感じ方を表す尺度としてバーク尺度Bark scale)やメル尺度mel scale)がある。

WLPC ではこれらの特性に合わせてワープ係数を変えることで、同じ線形予測次数であればより広い周波数の、同じ周波数帯域であれば人間が敏感な低い周波数に対してより分解能の高い線形予測を行うことができる[1]

歴史[編集]

周波数ごとに遅延時間が異なるようなオールパスフィルタデジタルフィルタに応用するアイデア自体は新しいものではなく、1970年にシュスラー(H.W. Schüssler)らが既に発表している[3]。この考え方は様々なフィルタや FFT にも応用ができる。

1980年にストルーベ(H.W. Strube)はこの方法を人間の聴感特性を反映した分析を行うため線形予測符号に応用し、通常の方法との違いの分析を行った[4]

レーヌ(U.K. Laine)らは周波数ワープの手法をさらに一般化した FAM(Frequency-Amplitude Modulated complex exponencials) や FAMlet と呼ばれる直交関数による信号分析を提案している[5]

脚注[編集]

  1. ^ a b A. Härmä, U.K. Laine. (2001) A comparison of warped and conventional linear predictive coding. Speech and Audio Processing, IEEE Transactions on , vol. 9, no.5 pp.579-588, July 2001.
  2. ^ J. Pohjalainen. (2004) Frequency-Warped Linear Prediction and Speech Analysis(pdf). Master's Thesis, Helsinki University of Technology, 2004.
  3. ^ A. Härmä, et al. (2000) Frequency-warped signal processing for audio apllications(pdf). J. Audio Eng., vol.28, No.11, pp.1011-1031, Nov. 2000.
  4. ^ H.W. Strube. (1980) Linear prediction on a warped frequency scale. Journal of the Acoustical Society of America, vol. 68, no. 4, pp.1071-1076, Oct 1980.
  5. ^ U. K. Laine, T. Altosaar. (1990) An Orthogonal Set of Frequency and Amplitude Modulated (FAM) Functions for Variable Resolution Signal Analysis. Proc. of ICASSP-90, Vol.3, pp.1615-1618, April, 1990.

参考文献[編集]

関連項目[編集]