GPT (言語モデル)

Generative Pre-trained Transformer（GPT）は、OpenAIによる言語モデルのファミリーである。通常、大規模なテキストデータのコーパスで訓練され、人間的な文章を生成する。

Transformerアーキテクチャのいくつかのブロックを使用して構築される。テキスト生成、翻訳、文書分類など諸々の自然言語処理に合わせてファインチューニングできる。名称に含まれる"pre-trained"（事前訓練）とは、大量のテキストコーパスによる最初の訓練プロセスを指し、モデルは、各節に続く単語を予測するよう学習する。これによりもたらされる強固な基盤によって、各処理固有の下流処理が限定的なデータ量であってもモデルが適切に動作する。

GPT-1[編集]

2018年6月11日、OpenAIは"Improving Language Understanding by Generative Pre-Training"というタイトルの論文をリリースし、その中でGPT（Generative Pre-trained Transformer）を導入した^[1]。

この時点では最高のパフォーマンスを行うニューラル自然言語処理モデルは、主に手動でラベル付けされた大量のデータからの教師あり学習を採用していた。この教師あり学習への依存は、十分に注釈が付けられていないデータセットの使用を制限するだけでなく、非常に大規模なモデルの訓練に莫大な費用と時間がかかっていた^[1]^[2]。多くの言語（スワヒリ語やハイチ・クレオール語など）は、コーパス構築に使用できるテキストが不足しているため、このようなモデルを使用して翻訳や解釈をすることが難しい^[2]。これに対して、GPTの「半教師あり」アプローチには2つの段階が含まれていた。2つの段階は、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成「事前訓練」段階と、これらのパラメータがターゲットとするタスクに適合された教師あり識別「ファインチューニング」段階である^[1]。

訓練には NVIDIA Quadro P600 を8枚30日使用し、実行効率33%のため、0.96ペタFLOPS・日となった。^[3]

シリーズ一覧[編集]

「OpenAI」も参照

名称	用途	アーキテクチャ	パラメータ数	訓練データ	リリース日
GPT-1	汎用	12-level, 12-headedのTransformerデコーダ（エンコーダなし）、linear-softmaxによりフォローされる。	1億1700万	BookCorpus：^[4] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト	000000002018-06-11-00002018年6月11日^[3]
GPT-2	汎用	GPT-1 + 正規化/初期化	15億	WebText（40GB）	000000002019-02-14-00002019年2月14日
GPT-3	汎用	GPT-2 + スパースアテンション	1750億^[5]	570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText, English Wikipedia, および2つの書籍コーパス（Books1およびBooks2）.	000000002020-06-11-00002020年6月11日^[6]
Codex	プログラミング	GPT-3をプログラミング用途に調整			000000002021-08-10-00002021年8月10日^[7]
InstructGPT	会話	GPT-3を人間のフィードバックによる指示に従うよう微調整^[8]			2022年3月4日
GPT-3.5	汎用	非公開	非公開	非公開	000000002022-03-15-00002022年3月15日
ProtGPT2	タンパク質配列^[9]	GPT-2 large（36層）と同様	7億3800万	UniRef50からのタンパク質配列（計4488万、検証のために10%を使用した後）	000000002022-07-27-00002022年7月27日
BioGPT	生物医学のコンテンツ^[10]^[11]	GPT-2 medium（24層、16 heads）と同様	3億4700万	PubMedの空でない項目（計150万）	000000002022-09-24-00002022年9月24日
ChatGPT	会話	GPT-3.5を使用し、教師あり学習とRLHF^[12]の両方でファインチューニングされている（転移学習のアプローチ）^[13]	非公開	非公開	000000002022-11-30-00002022年11月30日
GPT-4	汎用、マルチモーダル^[14]	テキスト予測とRLHFの両方で訓練されている。詳細非公開^[15]	非公開	非公開	000000002023-03-14-00002023年3月14日

出典[編集]

^ ^a ^b ^c “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。
^ ^a ^b Tsvetkov, Yulia (2017年6月22日). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 2020年3月31日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。
^ ^a ^b “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724.
^ Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs]. https://arxiv.org/abs/2203.02155 2023年3月23日閲覧。.
^ “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。
^ “OpenAI Codex”. 2023年5月5日閲覧。
^ “Aligning language models to follow instructions”. openai.com. 2023年3月23日閲覧。
^ Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). “ProtGPT2 is a deep unsupervised language model for protein design.”. Nature Communications Volume 13 (1): 4348. Bibcode: 2022NatCo..13.4348F. doi:10.1038/s41467-022-32007-7. PMC 9329459. PMID 35896542.
^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). “BioGPT: generative pre-trained transformer for biomedical text generation and mining.”. Brief Bioinform 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
^ Matthias Bastian (2023年1月29日). “BioGPT is a Microsoft language model trained for biomedical tasks”. The Decoder. 2023年3月18日閲覧。
^ “Introducing ChatGPT” (英語). openai.com. 2023年3月16日閲覧。
^ Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. オリジナルのJanuary 10, 2023時点におけるアーカイブ。 2023年1月10日閲覧。
^ テキストと画像の両方を入力として受け付ける。
^ OpenAI (2023年). “GPT-4 Technical Report”. 2023年3月18日閲覧。

[gpt1paper-1] “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。

[tsvetkov-2] Tsvetkov, Yulia (2017年6月22日). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 2020年3月31日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。

[language-unsupervised-3] “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。

[4] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724.

[5] Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs]. https://arxiv.org/abs/2203.02155 2023年3月23日閲覧。.

[6] “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。

[7] “OpenAI Codex”. 2023年5月5日閲覧。

[8] “Aligning language models to follow instructions”. openai.com. 2023年3月23日閲覧。

[9] Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). “ProtGPT2 is a deep unsupervised language model for protein design.”. Nature Communications Volume 13 (1): 4348. Bibcode: 2022NatCo..13.4348F. doi:10.1038/s41467-022-32007-7. PMC 9329459. PMID 35896542.

[pmid36156661-10] Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). “BioGPT: generative pre-trained transformer for biomedical text generation and mining.”. Brief Bioinform 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.

[11] Matthias Bastian (2023年1月29日). “BioGPT is a Microsoft language model trained for biomedical tasks”. The Decoder. 2023年3月18日閲覧。

[12] “Introducing ChatGPT” (英語). openai.com. 2023年3月16日閲覧。

[13] Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. オリジナルのJanuary 10, 2023時点におけるアーカイブ。 2023年1月10日閲覧。

[14] テキストと画像の両方を入力として受け付ける。

[15] OpenAI (2023年). “GPT-4 Technical Report”. 2023年3月18日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]