言語モデル

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Lyoll (会話 | 投稿記録) による 2021年9月22日 (水) 07:15個人設定で未設定ならUTC)時点の版 (+{{Reflist}})であり、現在の版とは大きく異なる場合があります。

言語モデルとは、単語列に対する確率分布である。長さmの単語列が与えられたとき、単語列全体に対しての確率を与える。 言語モデルを用いると異なるフレーズに対して相対的な尤度を求めることができるため、自然言語処理の分野で広く使われている。 言語モデルは音声認識機械翻訳品詞推定構文解析手書き文字認識情報検索などに利用されている。

1-gramモデル

n-gramモデル

連続空間言語モデル

その他のモデル

BERTは言語モデルの一種である。ニューラルネットワークの自己教師あり学習に基づいたモデルであり、事前学習では文字列を入力とする。

GSLM

Generative Spoken Language Model (GSLM) は音声を入力とした言語モデルである[1][2][3][4]。文字列を入力として一切利用しない。音声は言語情報以外にパラ言語情報・非言語情報を含んでいるため、音声を入力とするGSLMが獲得する表現にはこれらの情報もコードされていると期待される[5]

脚注

  1. ^ Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.
  2. ^ Lakhotia, et al. (2021). Generative Spoken Language Modeling from Raw Audio.
  3. ^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.
  4. ^ Kharitonov, et al. (2021). Text-Free Prosody-Aware Generative Spoken Language Modeling.
  5. ^ "by having access to the full expressivity of oral language, models should incorporate nuances and intonations" Facebook AI. (2021). Textless NLP: Generating expressive speech from raw audio.