ケプストラム
信号処理におけるケプストラム(英: Cepstrum)は周波数スペクトルを信号と見なしフーリエ変換して得られる信号である[1]。すなわちスペクトルのスペクトルである。
時系列信号のフーリエ解析ではスペクトラム(spectrum)が得られる。得られた周波数系列信号に対しフーリエ解析をおこなうことから、アナグラムを用いてspectrum→cepstrumと名付けられた。ケプストラムには、複素数版と実数版がある。
概要[編集]
ケプストラムは1963年、Bogert らの論文で定義された。ケプストラムの定義は以下の通り。
- 口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。
- 数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。
- アルゴリズム的定義: 信号 → FT → abs() → log → 位相アンラッピング → FT → ケプストラム
実数ケプストラムは、実数値について定義された対数関数を使う。複素数ケプストラムは、複素数について定義された複素対数関数を使う。
複素ケプストラムは、最初のスペクトルの振幅と位相に関する情報を保持しており、信号の再構築が可能である。実数ケプストラムはスペクトルの振幅に関する情報しか保持しない。
処理過程を FT → log → IFT(フーリエ逆変換)として説明しているものがよく見受けられる。すなわち、ケプストラムを「スペクトルの対数のフーリエ逆変換」と定義しているのである。これはオリジナルの論文にある定義ではないが、広く用いられている。
ケプストラムの計算方法は様々である。位相アンラッピングを必要とするものも、必要としないものもある。
応用[編集]
ケプストラムは、異なるスペクトル帯における変化の度合いに関する情報と見ることができる。本来、地震や爆弾の爆発を原因とする地震性反響の特性を調べるために考案された。また、レーダー信号の反射を解析するのにも使われてきた。
autocepstrum は、自己相関のケプストラムである。autocepstrum を用いるとデータに反響(エコー)がある場合にケプストラムよりも正確に解析ができる。
現在では、人間の声や音楽の信号を表す特徴ベクトルとしても使われている。この場合、スペクトルをまずメル尺度を使って変換する。その結果はメル周波数ケプストラム係数(MFCC)と呼ばれる。これは話者認識やピッチ抽出アルゴリズムなどに応用されている。最近では音楽情報検索への応用に関心が集まっている。
これらの応用が生まれたのは、ケプストラムが声道によって歪められた信号から声帯の振動に起因するエネルギーだけを分離できるためである。
quefrency[編集]
ケプストラムのグラフにおける独立変数を quefrency(ケフレンシ)と呼ぶ(周波数、すなわち "frequency" のアナグラム)。quefrency は時間の尺度だが、信号の時間領域という意味での時間ではない。例えば、音声信号のサンプリングレートが44100Hzのとき、quefrency が 100 サンプルのケプストラムには大きなピークが現われた場合、そのピークは 44100/100 = 441 Hz というピッチの存在を示している。このようなピークがケプストラムに現われるのは、スペクトルにおける倍音が周期的で、その周期がピッチと一致しているためである。
lifter[編集]
さらなるアナグラムを挙げると、ケプストラム上のフィルタ(filter)を lifter と呼ぶことがある。周波数領域におけるローパスフィルタと同じような性質を示す lifter をローパスlifterと呼ぶ。ローパスlifterを通した信号を時間領域に戻してやると、より滑らかな信号が得られる。
畳み込み[編集]
ケプストラム領域における重要な特性として、2つの信号の畳み込みは、それぞれのケプストラムの総和で表される。
派生[編集]
メル周波数ケプストラム[編集]
メル周波数ケプストラム(英: Mel-frequency cepstrum、MFC)はメルスペクトラムに対するケプストラムである。MFCの生成には離散フーリエ変換ではなく離散コサイン変換を用いることが多い。
メル周波数ケプストラム係数[編集]
メル周波数ケプストラム係数(英: Mel-frequency cepstrum、MFCC)はメル周波数ケプストラムの概形を表す係数である[2]。MFCにリフターを適用した上で低次要素のみを残したものをMFCCとする場合が多い(例: 80次元メルスペクトラムに対する20次元MFCC)。
MFCCにiDCTを適用すると周波数空間へ戻り、これはスペクトラムの包絡とみなすことができる。
脚注[編集]
- ^ "The log power spectrum can be considered as a 'frequency series'" B. P. Bogert, et al. (1963).
- ^ "ケプストラムから音声の特徴が表れる低次元 ... を抽出した情報がMFCCである" 荒川. (2018). 音を用いた再生可能資源の自動分別に関する研究. 東海大学紀要情報通信学部Vol.11,No.2,2018,pp.15-20.
参考文献[編集]
- B. P. Bogert, M. J. R. Healy, and J. W. Tukey: "The quefrency alanysis of time series for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum, and saphe cracking". Proceedings of the Symposium on Time Series Analysis (M. Rosenblatt, Ed) Chapter 15, 209-243. New York: Wiley, 1963.
- D. G. Childers, D. P. Skinner, R. C. Kemerait, "The Cepstrum: A Guide to Processing," Proceedings of the IEEE, Vol. 65, No. 10, October 1977, pp. 1428-1443.