言語モデル

言語モデルとは、単語列に対する確率分布である。長さ $m$ の単語列が与えられたとき、単語列全体に対しての確率 $P(w_{1},\ldots ,w_{m})$ を与える。言語モデルを用いると異なるフレーズに対して相対的な尤度を求めることができるため、自然言語処理の分野で広く使われている。言語モデルは音声認識、機械翻訳、品詞推定、構文解析、手書き文字認識、情報検索などに利用されている。

1-gramモデル

n-gramモデル

連続空間言語モデル

その他のモデル

BERTは言語モデルの一種である。ニューラルネットワークの自己教師あり学習に基づいたモデルであり、事前学習では文字列を入力とする。

GSLM

Generative Spoken Language Model (GSLM) は音声を入力とした言語モデルである^[1]^[2]^[3]^[4]。文字列を入力として一切利用しない。音声は言語情報以外にパラ言語情報・非言語情報を含んでいるため、音声を入力とするGSLMが獲得する表現にはこれらの情報もコードされていると期待される^[5]。