大規模言語モデル

出典: フリー百科事典『ウィキペディア(Wikipedia)』

大規模言語モデル(だいきぼげんごモデル、: large language modelLLM)は、言語モデルにおける種別のひとつである。通常、機械学習における数十億以上のパラメータを持つニューラルネットワークで構成され、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習英語版によって訓練される[1]。LLMは2018年頃に登場し、さまざまなタスク(仕事)で優れた性能を発揮している。これにより、自然言語処理の研究の焦点は、特定のタスクに特化した教師ありモデルを訓練するという以前のパラダイムから転換した[2]

特性[編集]

大規模言語モデルという用語の正式な定義はないが、数十億以上のオーダーのパラメータを持つディープラーニングモデルを指すことが多い[3]。LLMは、特定のタスク(感情分析固有表現抽出数学的推論など)のために訓練されたものとは異なり、幅広いタスクに優れた汎用モデルである[2][4]。LLMがタスクを実行する能力や対応可能な範囲は、ある意味では設計における画期的な進歩には依存せず、LLMに費やされた資源(データ、パラメータサイズ、計算力)の量の関数であるように見える[5]

多数のパラメータを持ったニューラル言語モデルは、文の次の単語を予測するという単純なタスクで十分に訓練されることで、人間の言葉の構文や意味の多くを捉えられることがわかった。さらに、大規模な言語モデルは、世の中に関するかなりの一般知識を示し、訓練中に大量の事実を「記憶」することができる[2]

事前訓練データセット[編集]

LLMは、大規模なテキストデータセットを使用して事前訓練される。一般的に使用されるテキストデータセットとして、Common CrawlThe Pile英語版、MassiveText、WikipediaGitHubなどがある。これらのデータセットの規模は最大で10兆語に達する[6]

高品質な言語データのコーパスの蓄積は4.6~17兆語で、これは最大規模のテキストデータセットを1桁上回っている[7]

スケーリング則[編集]

一般にLLMは、モデルの大きさ、訓練データセットの大きさ、訓練費用、訓練後の性能という4つのパラメータにより特徴づけられる。これらの4つの変数はそれぞれ実数で正確に定義することができ、経験から「スケーリング則(scaling laws)」と呼ばれている単純な統計的法則英語版によって関連することが分かっている。

ある研究によると、両対数学習率英語版のスケジュールで、1エポック分の自己回帰的な訓練を行ったLLMの場合、スケーリング則(Chinchillaスケーリング英語版)は次のように述べられている[8]

ここで、変数は次のとおりである。

  • :モデルの訓練に掛かる費用(FLOPS単位)
  • :モデル内のパラメータ数
  • :訓練セット内のトークン数
  • :テストデータセットで訓練されたLLMにより達成される、トークン当たりの平均の負対数尤度損失(ナット/トークン)

統計パラメータは次のとおりである。

  • 、すなわち、1つのトークンで訓練するにはパラメータごとに6 FLOPSの費用がかかる[9]。ここで、訓練費用は推論費用よりもはるかに高いことに注意を要する。1つのトークンを推論する費用はパラメータあたり1~2 FLOPSである。
  • .

創発的能力[編集]

質問応答などのタスクを含め、多くの自然言語ベンチマークでは、モデルがある規模に達するまでは偶然によるものよりも性能が劣り、ある時点で性能が急激に向上する。それぞれの図は創発的能力の例を示している。モデル規模は訓練の計算量によって測定されている。

一般に、さまざまなタスクに対する大規模モデルの性能は、同様の小規模モデルの性能に基づいて推定することができるが、ときには、下流におけるスケーリング則の「遷移」が発生し[10]、大規模モデルが、小規模モデルでは見られない実質的な能力を突然獲得することがある。これは「創発的能力」(: emergent abilities)として知られており、これまでも多くの研究の対象であった。研究者は、こうした能力は「小規模モデルの性能を外挿することでは予測できない」と述べている[4]。このような能力は、プログラムされたり設計されたりするものではなく、むしろ「発見される」ものであり、場合によっては、LLMが一般公開されて初めて発見されることすらある[5]。これまでに数百もの創発的能力が報告されている。たとえば、多段階の算術、大学レベルの試験、単語の意図する意味の特定[4]思考の連鎖[4]国際音声記号の解読、マス埋めパズル、ヒングリッシュ(ヒンディー語と英語の混成語)の段落内の不快な内容の特定、およびスワヒリ語のことわざに相当する英語の生成などがある[11]

幻覚[編集]

生成的大規模言語モデルでは、訓練データ英語版では正当化されないような事実を自信を持って英語版主張することが観察され、これは「幻覚」と呼ばれる現象である[12]

アーキテクチャ[編集]

大規模言語モデルでは、2018年以降、逐次データに対する標準的なディープラーニング手法となったTransformer(トランスフォーマー)アーキテクチャが最もよく使われている(その以前は長期・短期記憶(LSTM)などの再帰型アーキテクチャが最も一般的だった)[2]

トークン化[編集]

LLMは数学的な関数であり、その入力と出力は数字のリストである。したがって、単語は数値に変換しなければならない。

一般に、LLMはこれを行うために固有のトークナイザを使用し、テキストと整数のリストを対応させている。通常、LLMを訓練する前にトークナイザを訓練データセットの全体に適用し、その後は凍結する。トークナイザにはバイト対符号化が選択されるのが一般的である。

トークナイザのもう一つの機能は、計算量を削減するためのテキスト圧縮である。たとえば「where is(どこにありますか)」などの一般的な単語やフレーズは、7文字ではなく1つのトークンでエンコードすることができる。OpenAI GPTシリーズでは、1つのトークンが一般的な英語テキストの約4文字、つまり約0.75語に相当するトークナイザを使用している[13]。珍しい英語のテキストは予測しにくく、そのため圧縮が困難となり、より多くのトークンを必要とする。

トークナイザは、任意の整数を出力することはできない。一般的には の範囲の整数に限って出力される。ここで、 は語彙(ごい)サイズと言う。

トークナイザには、任意のテキストを扱えるものと(一般にUnicodeで直接操作する)、そうでないものがある。トークナイザは、エンコード不可能なテキストに遭遇した場合、「未知テキスト(unknown text)」を意味する特別なトークン(多くは0)を出力する。BERT論文にならって、[UNK] と表記されることが多い。

もう一つの特別なトークンは、「パディング」を表す [PAD](多くは1)である。これは、一度に大量のテキストがLLMに入力されたときに、エンコードされたテキストが同じ長さになるよう調節するのに使用される。LLMでは一般に、入力の長さが一定の配列(ジャグ配列という)であることを要求するため、エンコードした短いテキストを長いテキストにそろえるのにパディングを行う。

出力[編集]

LLMの出力は、その語彙の確率分布である。これは通常、次のように実装される。

  • テキストを受信すると、大半のLLMはベクトル を出力する。ここで、 は語彙サイズ(上述)である。
  • ベクトル ソフトマックス関数によって となる。

このプロセスでは通常、ベクトル は非正規化ロジットベクトルといい、ベクトル は確率ベクトルと呼ばれる。ベクトル 個のエントリを持ち、すべて非負であり、その合計は1となるので、 に対する確率分布、つまりLLMの語彙に対する確率分布であると解釈することができる。

ソフトマックス関数は数学的に定義されており、変化するパラメータを持たないことに注意を要する。したがっては訓練は行われない。

訓練[編集]

ほとんどのLLMは、生成的な事前学習によって訓練される。つまり、テキストトークンの訓練データセットが与えられると、モデルはデータセット内のトークンを予測する。生成的事前学習には、2つの一般的な形式がある[14]

  • 自己回帰モデル(GPT型、次単語予測)
    「私が食べるのが好きなのは」のようなテキスト部分が与えられると、モデルは「アイスクリーム」のような次のトークンを予測する。
  • マスク済みモデル(BERT型[15]穴埋め英語版
    「私は [MASK] クリームを [MASK] したい」 のようなテキスト部分が与えられると、モデルは「アイスを食べる」のようなマスクされたトークンを予測する。

LLMは、次文予測(Next Sentence Prediction、NSP)のように、データ分布の理解をテストする補助タスクを使用して訓練されることもある[15]。この場合は、文の組が提示され、モデルはそれらが訓練コーパス内で連続して出現するかどうかを予測しなければならない。

通常、LLMは特定の損失関数、つまりトークンごとの平均負対数尤度クロスエントロピー損失とも呼ばれる)を最小化するように訓練される[要出典]。たとえば、自己回帰モデルで「食べるのが好き」が与えられ、確率分布 を予測する場合、このトークンに対する負対数尤度損失は となる。

訓練の際に、正則化損失は訓練を安定させるためにも使用される。ただし、正則化損失は通常、テスト英語版や評価の際には使用されない。また、負対数尤度だけでなく、他にも多くの評価項目がある。詳細については以下の節を参照のこと。

訓練用データセットの大きさ[編集]

最初期のLLMは、数十億語の規模のコーパスで訓練が行われた。

OpenAIGPT(generative pre-trained transformer)シリーズの最初のモデルであるGPT-1は、2018年に、9億8500万語で構成されるBookCorpus英語版で訓練された[16]。同年、BERTはBookCorpusと英語版Wikipediaの組み合わせで訓練され、合計で33億語になった[15]。それ以来、LLMの訓練用コーパスは桁違いの増加を続けており、トークン数は最大で数兆個に達した[15]

訓練費用[編集]

LLMの訓練には計算費用がかかる。2020年の調査では、15億パラメータのモデル(当時の最先端技術より2桁小さい)の訓練費用は160万ドルと見積もられた[17]。その後、ソフトウェアとハードウェアの進歩により費用は大幅に下がり、2023年の論文では、120億パラメータのモデルを訓練するための費用は72,300 A100-GPU 時間であると報告されている[18]

TransformerベースのLLMの場合、1つのトークンで訓練するには1パラメータあたり 6 FLOPS の費用がかかる[9]。この訓練費用は、1つのトークンを推論するのに1パラメータあたり1〜2 FLOPSかかる推論費用よりもはるかに高いことに注意を要する。

下流タスクへの適用[編集]

2018年から2020年にかけて、特定の自然言語処理(NLP)タスクでLLMを使用するための標準的な方法は、タスクに特化した追加訓練でモデルをファインチューニングすることであった。その後、GPT-3のような「より強力」なLLMでは、解決すべき問題をテキストプロンプトとしてモデルに提示したり、場合によっては、類似の問題とその解決策のいくつかのテキスト例とともに提示する「プロンプティング技術」を使用して、追加の訓練なしでタスクを解決できることがわかった[2]

ファインチューニング[編集]

ファインチューニング(: fine-tuning、微調整)とは、事前学習された既存の言語モデルを、特定のタスク(例: 感情分析固有表現識別品詞タグ付け英語版)で(教師ありの)訓練を行うことによって修正する手法である。これは転移学習の一種である。一般的には、言語モデルの最終層と下流タスク(: downstream tasks)の出力とを接続する新しい重みのセットを導入することになる。言語モデルの元の重みは「凍結」したまま、それらを出力に接続する新しい重み層のみが訓練中に調節されるように構成する。また、元の重みをわずかずつ更新させたり、あるいは以前の凍結された層と一緒に更新されることもある[15]

プロンプティング[編集]

GPT-3によって普及したプロンプトパラダイムでは[4]、解決すべき問題はテキストプロンプト(回答を促す指示)で定式化され、モデルは(推論して)補完を提供することによってそれを解決しなければならない。「少数ショットプロンプト」(: few-shot prompting)の場合、プロンプトには類似した組(問題、解決)の少数の例が含まれる[2]。たとえば、映画レビューに対する感情をラベル付けする感情分析タスクは、次のような例で回答が促される[4]

レビュー: この映画は気が沈む。
感情: ネガティブ

レビュー: この映画は素晴らしい!
感情: 

もしモデルが「ポジティブ」と出力すれば、正しくタスクが解決されたことになる[17][19]。一方、「ゼロショットプロンプト」(: zero-shot prompting)の場合、解決例を提供しない。同じ感情分析タスクに対するゼロショットプロンプトの例は、『映画レビューに関連するセンチメントは「この映画は素晴らしい!」』である[20]

LLMにおける少数ショットの性能は、NLPタスクで競争力のある結果を達成することが示されており、ときには先行する最先端のファインチューニング手法を凌ぐことさえある。このようなNLPタスクの例としては、翻訳質問応答穴埋め英語版、マス埋めパズル、文中の新語検出などがある[19]。優れたプロンプトを作成し、最適化することをプロンプトエンジニアリングと呼ぶ。

インストラクション・チューニング[編集]

インストラクション・チューニング(: instruction tuning、命令チューニング)は、より自然で正確なゼロショットプロンプトによる対話を促進するために考案されたファインチューニングの一形態である。テキストが入力されると、事前訓練された言語モデルは、訓練に使用したテキストコーパスの分布に一致するような補完を生成する。たとえば、「ハムレットの主要テーマについてエッセイを書いてください」というプロンプトが与えられたとき、単純な言語モデルは「3月17日以降に受け取った提出物には、1日あたり10%の遅延損害金が適用されます」といった(意図しない)補完を出力するかもしれない。インストラクション・チューニングでは、自然言語による命令として定式化された多くのタスクの例と、適切な応答を用いて言語モデルを訓練する。

インストラクション・チューニングでは、さまざまな手法が実践されている。その一例である「自己学習(: self-instruct)」は、LLMによって生成された事例(人間が作成した少数の初期事例からブートストラップしたもの)の訓練セットで言語モデルをファインチューニングする[21]

強化学習[編集]

OpenAIのInstructGPTプロトコルでは、人間が作成したプロンプトと応答の組からなるデータセットによる教師ありファインチューニングと、それに続く、人間のフィードバックによる強化学習英語版(RLHF)を伴っている。この場合、人間の好みを反映したデータセットを用いて報酬関数を教師あり学習し、その後、この報酬モデルを使用した近位方策最適化英語版によってLLM自体を訓練する[22]

評価[編集]

パープレキシティ[編集]

言語モデルの性能を表す最も一般的な指標は、所与のテキストコーパスにおける言語モデルのパープレキシティである。パープレキシティは、モデルがデータセットの内容をどれだけうまく予測できるかを示す尺度である。モデルがデータセットに割り当てる尤度(ゆうど)が高いほど、パープレキシティは低くなる。数学的には、パープレキシティは、トークンごとの平均負対数尤度の対数として定義される。

ここで、 はテキストコーパス内のトークン数であり、「context for tokeni(トークンi の文脈)」は使用するLLMの種類に依存する。たとえば、LLMが自己回帰型の場合、「context for tokeni」はトークンi よりも前に現れたテキストの一部である。

言語モデルは訓練データに対して過剰適合する可能性があるため、モデルは通常、未知のデータから構成されるテストセット英語版に対するパープレキシティによって評価される。このことは、大規模な言語モデルを評価する際に、特に重要な課題となる[15]。言語モデルは、主にウェブから収集された、より大規模なテキストコーパスで訓練されるため、モデルの訓練データに特定のテストセットの一部が誤って含まれてしまう可能性がますます高くなる[19]

タスク固有のデータセットとベンチマーク[編集]

また、言語モデルがより具体的な下流タスクを実行する能力を評価するために、多くのテスト用データセットやベンチマークが開発されている。テストは、一般的な知識、常識的な推論、数学的な問題解決など、さまざまな能力を評価するために設計することができる。

評価用データセットの大区分の1つに、質問と正解の組で構成される質問応答データセットがある。たとえば、『「サンノゼ・シャークスはスタンレーカップで優勝しましたか?」、「いいえ」 』のような組である[23]。質問回答タスクでは、モデルのプロンプトに期待される答えを導き出せるテキストが含まれる場合、「明白なもの(オープンブック)」とみなされる。たとえば、先の質問には、「2016年、シャークスはスタンレーカップ決勝戦に進出し、ピッツバーグ・ペンギンズに敗れた。」という文を含むテキストが追加される可能性がある[23]。そうでない場合、タスクは「(理解する術がなく)説明できないもの(クローズドブック)」とみなされ、モデルは訓練中に獲得した知識を動員する必要がある[24]。一般的な質問回答データセットの例として、TruthfulQA、Web Questions、TriviaQA、SQuADなどがある[24]

評価用データセットは、テキスト補完の形式をとることもできる。この場合、モデルは、プロンプトを完成させるために最も可能性の高い単語や文章を選択する。たとえば、「アリスはボブと友達だった。アリスは彼女の友人の___を訪ねた。」のような穴埋め型の設問である[19]

また、さまざまな評価データセットやタスクを組み合わせた複合ベンチマークも開発されている。たとえば、GLUE、SuperGLUE、MMLU、BIG-bench、HELMなどがある[25][24]

かつては、評価用データセットの一部を手元に残し、残りの部分で教師ありファインチューニングを行い、その後に結果を報告するのが一般的であった。現在では、事前訓練されたモデルをプロンプティング技術によって直接評価することが一般的になっている。しかし、特定のタスクに対するプロンプトの作成方法、特にプロンプトに付加される解決済みタスクの事例数(nショットプロンプトのn値)については研究者によって異なる。

逆説的に構成された評価[編集]

大規模言語モデルの改良が急速に進んでいるため、評価ベンチマークの寿命は短く、最先端のモデルが既存のベンチマークを急速に「飽和」させ、人間の注釈者の能力をも超えてしまう。そのためベンチマークをより難易度が高いタスクで置き換えたり、強化したりする取り組みが行われている[26]

中には敵対的に構築されたデータセットもあり、人間と比べて既存の言語モデルの性能が異常に低いと思われる特定の問題に重点が置かれている。その一例がTruthfulQAデータセットで、言語モデルが訓練中に繰り返し触れた虚偽を模倣することで不正確な解答をする可能性がある、817問からなる質問応答データセットである。たとえば、LLMは「Can you teach an old dog new tricks?(年老いた犬に新しい芸を教えられますか?)」という質問に対して、「you can't teach an old dog new tricks(老犬に新しい芸を仕込むことはできない)」という英語の語法に触れた結果、文字通り真実でないにもかかわらず、「No」と答えるかもしれない[27]

敵対的評価データセットのもう一つの例は、Swagとその後継のHellaSwagである。これは、文章を完成させるためにいくつかの選択肢から一つを選択しなければならない問題を集めたものである。不正解の選択肢は、言語モデルからサンプリングし、一連の分類器でフィルタリングすることで作成された。その結果、人間にとっては些細な問題でも、データセットが作成された当時は、最先端の言語モデルの精度は思わしくなかった。たとえば、次のようなものである。

フィットネスセンターの看板が見える。そして、エクササイズボールに座ったり横たわりながら、カメラに向かって話しかける男性が見える。その男性は、...

a) ボールの上を走ったり降りたりして、運動の効果を効率的にする方法を実演している。

b) すべての腕と脚を動かしてたくさんの筋肉をつけている。

c) 次にボールを投げ、グラフィックや生け垣の刈り込みの実演を見る。

d) ボールの上で腹筋運動をしながら話をしている[28]

BERTは最も可能性の高い補完としてb)を選択したが、正解はd)である[28]

大規模言語モデルの一覧[編集]

大規模言語モデルの一覧
名称 公開日[注釈 1] 開発者 パラメータ数[注釈 2] コーパスサイズ ライセンス[注釈 3] 注記
BERT 2018年 Google 3.4億[29] 33億[29] Apache 2.0[30] 初期の影響力のある言語モデルだが[2]、エンコーダのみで、プロンプトや生成的モデルを想定していない[31]
XLNet 2019年 Google ~340 million[32] 33 billion words An alternative to BERT; designed as encoder-only[33][34]
GPT-2 2019年 OpenAI 15億[35] 40GB[36] (~100億トークン) [37] MIT[38] Transformerアーキテクチャに基づく汎用モデル
GPT-3 2020年 OpenAI 1,750億[17] 4,990億トークン[37] public web API GPT-3のファインチューニング版はGPT-3.5と呼ばれ、2022年にChatGPTというWebインターフェースを通じて一般公開された[39]
GPT-Neo 2021年3月 EleutherAI英語版 27億[40] 825 GiB[41] MIT[42] EleutherAIがリリースした無料のGPT-3代替シリーズのうち最初のもの。GPT-Neoは、いくつかのベンチマークで同サイズのGPT-3モデルよりも優れていたが、最大のGPT-3よりは大幅に劣っていた[42]
GPT-J英語版 2021年6月 EleutherAI 60億[43] 825 GiB[41] Apache 2.0 GPT-3方式の言語モデル
Megatron-Turing NLG 2021年10月[44] Microsoft and Nvidia 5,300億[45] 3,386億トークン[45] Restricted web access 標準的なアーキテクチャだが、スーパーコンピューティング・クラスターで訓練された
Ernie 3.0 Titan 2021年12月 Baidu 2,600億[46] 4 Tb プロプライエタリ 中国語版LLM。Ernie Botはこのモデルに基づく。
Claude[47] 2021年12月 Anthropic 520億[48] 4,000億トークン[48] Closed beta 会話で望ましい動作をするようにファインチューニングされた[49]
GLaM (Generalist Language Model) 2021年12月 Google 1.2兆[50] 1.6兆トークン [50] プロプライエタリ GPT-3と比較して、訓練費用は高いが、推論費用は安い、スパース混合エキスパートモデル
Gopher 2021年12月 DeepMind 2,800億[51] 3,000億トークン[52] プロプライエタリ
LaMDA (Language Models for Dialog Applications) 2022年1月 Google 1,370億[53] 1.56T語,[53] 1,680億トークン[52] プロプライエタリ 会話での応答生成に特化し、Google Bardチャットボットで使用されている
GPT-NeoX 2022年2月 EleutherAI 200億[54] 825 GiB[41] Apache 2.0 Megatronアーキテクチャに基づく
Chinchilla英語版 2022年3月 DeepMind 700億[55] 1.4兆 トークン [55][52] プロプライエタリ より多くのデータで訓練されたパラメータ削減モデル。Sparrowボットで使用された。
PaLM (Pathways Language Model) 2022年4月 Google 5,400億[56] 7,680億トークン[55] プロプライエタリ モデルスケールの実用的な限界に到達することを目指した
OPT (Open Pretrained Transformer) 2022年5月 Meta 1,750億[57] 1,800億トークン[58] Non-commercial research[注釈 4] GPT-3アーキテクチャにMegatronから改作を加えたもの
YaLM 100B 2022年6月 Yandex 1,000億[59] 1.7TB[59] Apache 2.0 MicrosoftのMegatron-LMに基づく英露モデル
Minerva 2022年6月 Google 5,400億[60] 385億トークン[注釈 5][60] プロプライエタリ 数学的および科学的な問題を段階的な推論によって解くために訓練されたLLMである[61]。Minervaは、PaLMモデルに基にさらに数学的および科学的データで訓練されている。
BLOOM英語版 2022年7月 Large collaboration led by Hugging Face 1,750億[62] 3,500億トークン (1.6TB)[63] Responsible AI 基本的にはGPT-3だが、多言語コーパスでトレーニングされている(プログラミング言語を除いて、30%は英語)。
Galactica 2022年11月 Meta 1,200億 1,060億トークン[64] CC-BY-NC-4.0 科学的なテキストや方法の訓練を受けている
AlexaTM (Teacher Models) 2022年11月 Amazon 200億[65] 1.3兆[66] public web API[67] 双方向のシーケンスからシーケンスへのアーキテクチャ
LLaMA (Large Language Model Meta AI) 2023年2月 Meta 650億[68] 1.4兆[68] Non-commercial research[注釈 6] 20言語の大規模コーパスで訓練し、より少ないパラメータでの性能向上を目指す[68]。スタンフォード大学の研究者は、Alpacaと呼ばれるLLaMAの重みに基づいて微調整されたモデルを訓練した[69]
GPT-4 2023年3月 OpenAI 非公開[注釈 7] 非公開 public web API ChatGPT Plusユーザが利用でき、いくつかの製品で使用されている
Cerebras-GPT 2023年3月 Cerebras 130億[71] Apache 2.0 Chinchilla方式で訓練された
Falcon 2023年3月 Technology Innovation Institute 400億[72] 1兆トークン (1TB)[72] プロプライエタリ モデルはGPT-3の75%、Chinchillaの40%、PaLM-62Bの80%の訓練計算量で済むとされる
BloombergGPT 2023年3月 Bloomberg L.P. 500億 3,630億トークン[注釈 8][73] プロプライエタリ 独自ソースによる財務データで訓練され、「一般的なLLMベンチマークでの性能を犠牲にすることなく、財務タスクで既存モデルを大幅に上回る」とされる
PanGu-Σ 2023年3月 Huawei 1.085兆 3,290億トークン[74] プロプライエタリ
OpenAssistant[75] 2023年3月 LAION 17 billion 1.5 trillion tokens Apache 2.0 Trained on crowdsourced open data

関連項目[編集]

  • 基盤モデル - 幅広いデータで大規模に訓練された、幅広い下流タスクに適用できる大規模な人工知能モデル。事前学習済の大規模言語モデル(LLM)はその初期の例である。

注記[編集]

  1. ^ モデルのアーキテクチャを説明する文書が最初に公開された日。
  2. ^ 多くの場合、研究者はサイズの異なる複数のモデルを公開または報告する。こうした場合、ここでは一番大きなモデルのサイズを記載している。
  3. ^ これは、事前学習されたモデルウェイトのライセンスである。たいていの場合、訓練コード自体はオープンソースであるか、簡単に複製することができる。
  4. ^ 66Bを含めた小規模モデルは一般に公開されており、175Bのモデルはリクエストに応じて入手可能である。
  5. ^ 数学的な内容でフィルタリングされたウェブページおよびarXivプレプリントサーバーに投稿された論文からの385億トークン。
  6. ^ Facebookのライセンスと配布スキームにより、モデルへのアクセスは承認された研究者にが制限されていたが、モデルウェイトが流出して広く利用されるようになった。
  7. ^ テクニカルレポートに述べられているように『GPT-4のような大規模モデルの市場競争と安全性への影響の両方を考慮して、このレポートには、アーキテクチャ(モデルサイズを含む)、ハードウェア、訓練計算環境、データセット構築、トレーニング方法に関する詳細は含まれていない[70]。』
  8. ^ ブルームバーグのデータソースからの3,630億トークンと、汎用データセットからの3,450億トークンのデータセット

脚注[編集]

  1. ^ Goled, Shraddha (2021年5月7日). “Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ”. Analytics India Magazine. 2023年5月13日閲覧。
  2. ^ a b c d e f g Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus 151 (2): 127–138. doi:10.1162/daed_a_01905. https://www.amacad.org/publication/human-language-understanding-reasoning. 
  3. ^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar (2021). Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium. 6.
  4. ^ a b c d e f Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (31 August 2022). “Emergent Abilities of Large Language Models” (英語). Transactions on Machine Learning Research. ISSN 2835-8856. https://openreview.net/forum?id=yzkSU5zdwD. 
  5. ^ a b Bowman, Samuel R.. Eight Things to Know about Large Language Models. https://cims.nyu.edu/~sbowman/eightthings.pdf. 
  6. ^ Papers with Code - MassiveText Dataset” (英語). paperswithcode.com. 2023年4月26日閲覧。
  7. ^ Villalobos, Pablo; Sevilla, Jaime; Heim, Lennart; Besiroglu, Tamay; Hobbhahn, Marius; Ho, Anson (2022-10-25). “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning”. arXiv:2211.04325 [cs]. http://arxiv.org/abs/2211.04325. 
  8. ^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (2022-03-29). “Training Compute-Optimal Large Language Models”. arXiv:2203.15556 [cs]. http://arxiv.org/abs/2203.15556. 
  9. ^ a b Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec et al. (2020). “Scaling Laws for Neural Language Models”. CoRR abs/2001.08361. arXiv:2001.08361. 
  10. ^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). Broken Neural Scaling Laws. International Conference on Learning Representations (ICLR), 2023.
  11. ^ Ornes, Stephen (2023年3月16日). “The Unpredictable Abilities Emerging From Large AI Models”. Quanta Magazine. 2023年5月13日閲覧。
  12. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin et al. (November 2022). “Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys (Association for Computing Machinery) 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. https://dl.acm.org/doi/pdf/10.1145/3571730 2023年1月15日閲覧。. 
  13. ^ OpenAI API” (英語). platform.openai.com. 2023年4月23日時点のオリジナルよりアーカイブ。2023年4月30日閲覧。
  14. ^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 February 2020). “A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP”. Proceedings of the Australasian Computer Science Week Multiconference: 1–4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 9781450376976. https://www.researchgate.net/publication/338931711. 
  15. ^ a b c d e f Jurafsky, Dan; Martin, James H. (7 January 2023). Speech and Language Processing (3rd edition draft ed.). https://web.stanford.edu/~jurafsky/slp3/ed3book_jan72023.pdf 2022年5月24日閲覧。 
  16. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (December 2015). “Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books”. 2015 IEEE International Conference on Computer Vision (ICCV): 19–27. arXiv:1506.06724. doi:10.1109/ICCV.2015.11. ISBN 978-1-4673-8391-2. https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zhu_Aligning_Books_and_ICCV_2015_paper.pdf 2023年4月11日閲覧。. 
  17. ^ a b c Wiggers, Kyle (2022年4月28日). “The emerging types of language models and why they matter”. TechCrunch. 2023年4月28日閲覧。
  18. ^ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv:2304.01373 [cs.CL]。
  19. ^ a b c d Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et al. (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R. et al.. eds. “Language Models are Few-Shot Learners”. Advances in Neural Information Processing Systems (Curran Associates, Inc.) 33: 1877–1901. https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf. 
  20. ^ Introducing FLAN: More generalizable Language Models with Instruction Fine-Tuning”. Google Research (2021年10月6日). 2024年4月28日閲覧。
  21. ^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560 [cs.CL]。
  22. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]。
  23. ^ a b Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044 [cs.CL]。
  24. ^ a b c Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL]。
  25. ^ Huyen, Chip (2019年10月18日). “Evaluation Metrics for Language Modeling”. The Gradient. 2024年4月28日閲覧。
  26. ^ Srivastava, Aarohi; et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models". arXiv:2206.04615 [cs.CL]。
  27. ^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958 [cs.CL]。
  28. ^ a b Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830 [cs.CL]。
  29. ^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]。
  30. ^ BERT” (2023年3月13日). 2023年4月28日閲覧。
  31. ^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). “Bidirectional Language Models Are Also Few-shot Learners” (英語). ArXiv. https://www.semanticscholar.org/paper/Bidirectional-Language-Models-Are-Also-Few-shot-Patel-Li/b65b7f480a61d3dd31d8117b349cabc87c8ccf6c. 
  32. ^ BERT, RoBERTa, DistilBERT, XLNet: Which one to use?”. 2023年5月13日閲覧。
  33. ^ Naik, Amit Raja (2021年9月23日). “Google Introduces New Architecture To Reduce Cost Of Transformers”. Analytics India Magazine. 2023年5月13日閲覧。
  34. ^ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 January 2020). “XLNet: Generalized Autoregressive Pretraining for Language Understanding”. arXiv:1906.08237 [cs]. https://arxiv.org/abs/1906.08237 2023年5月5日閲覧。. 
  35. ^ GPT-2: 1.5B Release” (英語). OpenAI (2019年11月5日). 2019年11月14日時点のオリジナルよりアーカイブ。2019年11月14日閲覧。
  36. ^ Better language models and their implications”. openai.com. 2023年4月28日閲覧。
  37. ^ a b OpenAI's GPT-3 Language Model: A Technical Overview” (英語). lambdalabs.com. 2023年4月28日閲覧。
  38. ^ gpt-2”. GitHub. 2023年3月13日閲覧。
  39. ^ ChatGPT: Optimizing Language Models for Dialogue” (英語). OpenAI (2022年11月30日). 2023年1月13日閲覧。
  40. ^ GPT Neo” (2023年3月15日). 2023年4月28日閲覧。
  41. ^ a b c Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL]。
  42. ^ a b Iyer, Abhishek (2021年5月15日). “GPT-3's free alternative GPT-Neo is something to be excited about”. VentureBeat. 2023年4月28日閲覧。
  43. ^ GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront” (英語). www.forefront.ai. 2023年2月28日閲覧。
  44. ^ Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model”. Microsoft Research (2021年10月11日). 2023年4月28日閲覧。
  45. ^ a b Template:Cite preprint
  46. ^ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan et al. (December 23, 2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2112.12731. 
  47. ^ Product” (英語). Anthropic. 2023年3月14日閲覧。
  48. ^ a b Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]。
  49. ^ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]。
  50. ^ a b More Efficient In-Context Learning with GLaM” (英語). ai.googleblog.com (2021年12月9日). 2023年3月9日閲覧。
  51. ^ Language modelling at scale: Gopher, ethical considerations, and retrieval” (英語). www.deepmind.com. 2023年3月20日閲覧。
  52. ^ a b c Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; et al. (29 March 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL]。
  53. ^ a b LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything” (英語). ai.googleblog.com (2022年1月21日). 2023年3月9日閲覧。
  54. ^ Black, Sidney; Biderman, Stella; Hallahan, Eric (1 May 2022). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. pp. 95–136. 2022年12月19日閲覧
  55. ^ a b c An empirical analysis of compute-optimal large language model training”. Deepmind Blog (2022年4月12日). 2023年4月28日閲覧。
  56. ^ Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance” (英語). ai.googleblog.com (2022年4月4日). 2023年3月9日閲覧。
  57. ^ Democratizing access to large-scale language models with OPT-175B” (英語). ai.facebook.com. 2023年4月28日閲覧。
  58. ^ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 June 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068 [cs.CL]。
  59. ^ a b Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B, https://github.com/yandex/YaLM-100B 2023年3月18日閲覧。 
  60. ^ a b Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (30 June 2022). "Solving Quantitative Reasoning Problems with Language Models". arXiv:2206.14858 [cs.CL]。
  61. ^ Minerva: Solving Quantitative Reasoning Problems with Language Models” (英語). ai.googleblog.com. 2023年3月20日閲覧。
  62. ^ Ananthaswamy, Anil (2023年3月8日). “In AI, is bigger always better?”. Nature. 2023年4月28日閲覧。
  63. ^ bigscience/bloom · Hugging Face”. huggingface.co. 2023年4月28日閲覧。
  64. ^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 November 2022). "Galactica: A Large Language Model for Science". arXiv:2211.09085 [cs.CL]。
  65. ^ 20B-parameter Alexa model sets new marks in few-shot learning” (英語). Amazon Science (2022年8月2日). 2023年4月28日閲覧。
  66. ^ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 August 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448 [cs.CL]。
  67. ^ AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog”. aws.amazon.com (2022年11月17日). 2023年3月13日閲覧。
  68. ^ a b c Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (2023年2月24日). 2023年4月28日閲覧。
  69. ^ Stanford CRFM”. crfm.stanford.edu. 2023年4月28日閲覧。
  70. ^ GPT-4 Technical Report”. OpenAI (2023年). 2023年3月14日時点のオリジナルよりアーカイブ。2023年3月14日閲覧。
  71. ^ Dey, Nolan (2023年3月28日). “Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models”. Cerebras. 2024年4月28日閲覧。
  72. ^ a b Abu Dhabi-based TII launches its own version of ChatGPT”. tii.ae. 2023年4月28日閲覧。
  73. ^ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David et al. (March 30, 2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564. 
  74. ^ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda et al. (March 19, 2023). PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing. arXiv:2303.10845. 
  75. ^ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh et al. (2023-04-14). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. arXiv:2304.07327 [cs]. http://arxiv.org/abs/2304.07327.