BERT (言語モデル)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

Bidirectional Encoder Representations from TransformersBERT)は、 Googleによって開発された、自然言語処理(NLP)の事前学習用ための Transformer ベースの機械学習手法。 BERT は、Google の Jacob Devlin と彼の同僚によって2018年に作成され公開された [1] [2]。 2019年現在 、Google は BERT を活用して、ユーザー検索の理解を深めている [3]

オリジナルの英語の BERT には、以下の 2 つのアーキテクチャに基づく事前学習モデルがある [4]

  1. BERT BASEモデル – 12層、隠れ層 768、12ヘッド、1億1000万 パラメータ
  2. BERT LARGEモデル – 24層、隠れ層 1024、16ヘッド、3億4000万 パラメータ

どちらもBooksCorpus [5]の8億語と、英語版ウィキペディアの2億5000万語でトレーニングされた。

性能[編集]

BERTが公開されたとき、BERTは多くの自然言語理解タスクで最先端の性能を達成した。 [1]

  • GLUE(一般言語理解評価)タスクセット(9つのタスクで構成される)
  • SQuAD(スタンフォード質問回答データセット)v1.1およびv2.0
  • SWAG(敵対的生成の状況)

分析[編集]

これらの自然言語理解タスクにおけるBERTの最先端のパフォーマンスの理由はまだよく理解されていない [6] [7]。現在の研究は、慎重に選択された入力シーケンスの結果としてのBERTの出力の背後にある関係の調査 [8] [9]、プロービング分類器による内部ベクトル表現の分析 [10] [11]、およびアテンションの重みによって表される関係に焦点を当てている 。

BERTの起源は、半教師ありシーケンス学習 [12]、生成的事前トレーニング、 ELMo [13] 、 ULMFitなどの事前トレーニングコンテキスト表現にある [14]。従来のモデルとは異なり、BERT は、プレーンテキストコーパスのみを使用して事前にトレーニングされた、双方向の教師なし言語表現である。 word2vecやGloVeなどの文脈自由モデルは、語彙の各単語に対して単一の単語埋め込み表現を生成する。BERTは、特定の単語の出現ごとにコンテキストを考慮する。たとえば、word2vec では「He is running a company」の「running(経営する)」も「He is running a marathon」の「running(走る)」も同じベクトル表現にしてしまうが、BERT ではコンテキスト化された埋め込みを行い、文によって異なるということになる。

2019年10月25日、 Google検索は、米国内の英語検索クエリにBERTモデルの適用を開始したことを発表した。 [15] 2019年12月9日、BERT が 70 を超える言語でGoogle検索に採用されたことが報告された [16] 。2020年10月、ほぼすべての英語ベースのクエリがBERT によって処理された [17]

認識[編集]

BERTは、計算言語学会(NAACL)の北米支部の2019年年次会議でBest Long PaperAwardを受賞した [18]

関連項目[編集]

参考文献[編集]

  1. ^ a b Devlin, Jacob; Chang, Ming-Wei (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]。
  2. ^ Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing” (英語). Google AI Blog. 2019年11月27日閲覧。
  3. ^ Understanding searches better than ever before” (英語). Google (2019年10月25日). 2019年11月27日閲覧。
  4. ^ Devlin, Jacob; Chang, Ming-Wei (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL]。
  5. ^ Zhu, Yukun; Kiros, Ryan (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV]。
  6. ^ Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). “Revealing the Dark Secrets of BERT” (英語). Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). pp. 4364–4373. doi:10.18653/v1/D19-1445. https://www.aclweb.org/anthology/D19-1445 
  7. ^ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). “What Does BERT Look at? An Analysis of BERT's Attention”. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 276–286. doi:10.18653/v1/w19-4828. 
  8. ^ Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). “Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context”. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 284–294. arXiv:1805.04623. Bibcode2018arXiv180504623K. doi:10.18653/v1/p18-1027. 
  9. ^ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). “Colorless Green Recurrent Networks Dream Hierarchically”. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 1195–1205. arXiv:1803.11138. Bibcode2018arXiv180311138G. doi:10.18653/v1/n18-1108. 
  10. ^ Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). “Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information”. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 240–248. arXiv:1808.08079. Bibcode2018arXiv180808079G. doi:10.18653/v1/w18-5426. 
  11. ^ Zhang, Kelly; Bowman, Samuel (2018). “Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis”. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 359–361. doi:10.18653/v1/w18-5448. 
  12. ^ Dai, Andrew; Le, Quoc (4 November 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG]。
  13. ^ Peters, Matthew; Neumann, Mark (15 February 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL]。
  14. ^ Howard, Jeremy; Ruder, Sebastian (18 January 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL]。
  15. ^ Nayak (2019年10月25日). “Understanding searches better than ever before”. Google Blog. 2019年12月10日閲覧。
  16. ^ Montti (2019年12月10日). “Google's BERT Rolls Out Worldwide”. Search Engine Journal. Search Engine Journal. 2019年12月10日閲覧。
  17. ^ Google: BERT now used on almost every English query”. Search Engine Land (2020年10月15日). 2020年11月24日閲覧。
  18. ^ Best Paper Awards”. NAACL (2019年). 2020年3月28日閲覧。

関連文献[編集]

  • Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). A Primer in BERTology: What we know about how BERT works. arXiv:2002.12327.