GSM-EFR

出典: フリー百科事典『ウィキペディア(Wikipedia)』

GSM-EFRGSM Enhanced Full Rate、あるいはGSM 06.60GSM デジタル携帯電話システムで用いられる音声符号化方式で、それまでに使われていた GSM-FR(GSM Full Rate)の音質を改善するために開発された。コーデックビットレートは 12.2kbps で、有線の電話回線で使われる G.726 32 kbps ADPCM と同等の音質を実現している[1]。 また、3GPP が採用した音声符号化方式である AMR の 12.2kbps モードは GSM-EFR と互換性がある。

概要[編集]

GSM-EFR は GSM-FRGSM-HR に続いて採用された音声符号化方式で、現在の仕様は ETSI 06.60 (ETS 300 726) で定義されている。フィンランド電気通信機器メーカーであるノキアカナダシャーブルック大学が開発を行い、1995年に GSM-EFR の方式として採用され[2]、その後最初の仕様書が1997年に発行された [3]

それまでに GSM で使われていた GSM-FRGSM-HR と比べ音質が向上しており、従来の符号化方式が通信エラーの無い条件でも有線の電話回線以下の音質なのに対し、GSM-EFR は典型的な通信エラーの条件や背景雑音のある環境でも有線の電話回線と同じ音質を維持できる[1]

GSM-EFR では符号化アルゴリズムとして CELP の一種である ACELP を用い、符号化に必要な演算量はハーフレートコーデックGSM-HR より低い[1]

GSM-EFR の特徴は以下の通りである [4]

GSM-EFR の符号化データを RTP を用いインターネット上で送るためのデータ形式は、IETF標準の RFC 3551 で定義されている [6]。 符号化データは 31バイト/20 ms に丸められるため、VoIPなどでのビットレートは 12.4kbps になる。

アルゴリズム[編集]

GSM-EFR では、他の多くの携帯電話向けの音声符号化方式と同様、 ACELP アルゴリズムを用いる。 この方法は、人間の音声を声道に相当する線形予測フィルターと声帯に相当する適応型と固定型のコードブックとでモデル化する CELP をベースとし、代数的に決められた位置に配置した振幅が+1/-1のパルスの組み合わせを固定型コードブックとして使用する。

この方式は GSM-HR(ハーフレートコーデック)で使われている VSELP などのアルゴリズムと比べ演算量とメモリ使用量が少なくて済む特徴がある。

GSM-EFR 符号化の際の全体の処理はおおよそ以下のようになる[4]

処理は 20 ms 長(160サンプル)のフレームを 5 ms 長(40サンプル)のサブフレームに分割して行う。 入出力のサンプリング周波数は 8 kHz で、13 ビット幅のリニアPCM、あるいはそれに相当する 8 ビット A-law/μ-law PCM である。

  1. 前処理(ハイパスフィルタによる直流成分と交流ノイズの除去)
  2. 入力信号より線形予測フィルターの係数(10次)を計算
  3. オープンループでのピッチ周波数(音声波形の基本周波数)分析
    • 10 ms(80サンプル)ごとにピッチ周波数を推定(適応型コードブック探索で使用)
  4. 適応型コードブック探索
    • 5 ms のサブフレームごとに推定ピッチ周波数を用いて適応型コードブックのピッチディレイとピッチゲインの各係数を求める
    • 適応型コードブックの更新を行う
  5. 固定型コードブック(代数コードブック)探索
    • 5 ms のサブフレームごとに入力信号との誤差が最小になるような代数コードブック値とゲインの組み合わせを探索する
  • 代数コードブックの形式を以下に示す。

40 サンプルからなるサブフレームを以下の 5 トラックに分け、それぞれに対して 2 ビット(全体で 10 ビット)の+1/-1パルスを割り当てる。

GSM-EFR の代数コードブック形式
トラック パルス パルス位置
1 ±1 i0, i5 0, 5, 10, 15, 20, 25, 30, 35
2 ±1 i1, i6 1, 6, 11, 16, 21, 26, 31, 36
3 ±1 i2, i7 2, 7, 12, 17, 22, 27, 32, 37
4 ±1 i3, i8 3, 8, 13, 18, 23, 28, 33, 38
5 ±1 i4, i9 4, 9, 14, 19, 24, 29, 34, 39

復号は符号化と逆の処理を行う。

  1. 線形予測係数を復号
  2. 固定型コードブックの代数コードブック値とゲインを復号
  3. 適応型コードブックのピッチディレイとピッチゲインを復号
  4. 固定型コードブック復号結果と適応型コードブック復号結果から励起信号を生成
  5. 励起信号と線形予測フィルターから音声信号を合成
  6. 後処理(適応後置フィルターによるフォルマントフィルタリングなど)

符号化に必要なビットの構成は以下の通りで、ビットレートは 12.2 kbps になる。

パラメータ ビット数 (subframe 1,3) ビット数 (subframe 2,4) ビット合計 (20ms frame)
LPC 係数(10次,LSP 38
ピッチディレイ 9 6 30
ピッチゲイン 4 4 16
代数コード 35 35 140
コードブックゲイン 5 5 20
合計 (20ms) 244

脚注[編集]

  1. ^ a b c R.Salami, et.al., Description of GSM Enhanced Full Rate Speech Codec, Proc. of International Communications Conference, 1997.
  2. ^ Nokia (1995年11月4日). “Nokia Sets Industry Standard with New Voice Codec”. Archive.org. 2010年7月14日閲覧。
  3. ^ 3GPP. “3GPP TS 06.60 Enhanced full rate speech transcoding”. 3GPP. 2010年7月14日閲覧。
  4. ^ a b ETSI (2000年11月). “ETS 300 726 Enhanced Full Rate (EFR) speech transcoding (GSM 06.60 version 8.0.1 Release 1999)”. ETSI. 2010年7月14日閲覧。
  5. ^ Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, pp.389, 2007. ISBN 978-3540491255.
  6. ^ IETF (2003年7月). “RTP Profile for Audio and Video Conferences with Minimal Control”. IETF Network Working Group.. 2010年7月14日閲覧。

参考文献[編集]

  • Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
  • ETSI, EN 300 726 V8.0.1 (2000-11), Digital cellular telecommunications system (Phase 2+); Enhanced Full Rate (EFR) speech transcoding (GSM 06.60 version 8.0.1 Release 1999), ETSI, 2000.

関連項目[編集]

外部リンク[編集]