ニューラルスケーリング則

出典: フリー百科事典『ウィキペディア(Wikipedia)』

機械学習において、ニューラルスケーリング則(にゅーらるすけーりんぐそく、: neural scaling law)は、ニューラルネットワークのパラメータに関するスケーリング則である。[1][2]

概要[編集]

一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データセットの大きさ、訓練コスト、訓練後の性能という4つのパラメータにより特徴付けられる。4つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、(パラメータ数、データセットの大きさ、計算コスト、損失)と表記される。

モデルの大きさ[編集]

ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル(Transformer など)では、常にすべてのパラメータを利用して推論が行われる。

訓練データセットの大きさ[編集]

訓練データセットの大きさは通常、それに含まれるデータ点の数で定量化される。モデルの学習には豊富で多様な情報源が必要であるため、訓練データセットはより大きなものが好まれる。これにより、モデルを未知のデータを適用した際の汎化性能が向上する。[4] しかし、訓練データセットを大きくすることは、モデルの訓練に必要な計算リソースと時間が増加することも意味する。

ほとんどの大規模言語モデルで用いられている「事前に訓練し、微調整する」方法では、事前訓練データセットと微調整データセットと呼ばれる、2種類の訓練データセットが用いられる。これらの大きさはモデルの性能にそれぞれ異なる影響を及ぼす。一般的に、微調整には事前訓練時と比べて1%未満の大きさのデータセットが用いられる。[5]

微調整には少数の高品質なデータで十分であり、より多くのデータを用いても性能が向上しない場合もある。[5]

訓練コスト[編集]

訓練コストは通常、時間(訓練にどれだけの時間が必要か)と計算リソース(訓練にはどれだけの計算能力とメモリが必要か)の観点から測られる。特筆すべきは、訓練コストは効率的な訓練アルゴリズム、最適化されたソフトウェア、GPUTPU 上での並列計算により大幅に削減できることである。

ニューラルネットワークモデルの訓練コストは、モデルの大きさ、訓練データセットの大きさ、訓練アルゴリズムの複雑さ、利用可能な計算リソースといった要素の関数として考えることができる。[4] 特に、訓練データセットを2倍に増やすことは、必ずしも訓練コストが2倍になることを意味しない。これは、あるデータセット(これを1エポックとして扱う)に対して何回もモデルを訓練することがあるためである。

性能[編集]

ニューラルネットワークモデルの性能は、与えられた入力から、どれほど正確に出力を予測できるかで評価される。一般的な評価指標としては以下がある。[4]

モデルの性能は、より多くのデータ、より大きなモデル、異なる訓練アルゴリズムの併用、過適合の防止、検証データセットによる早期終了により改善することができる。

参考文献[編集]

  1. ^ Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。
  2. ^ Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。
  3. ^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346. https://proceedings.mlr.press/v162/rajbhandari22a.html. 
  4. ^ a b c Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  5. ^ a b Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia et al. (2023-05-01). LIMA: Less Is More for Alignment. https://ui.adsabs.harvard.edu/abs/2023arXiv230511206Z. 
  6. ^ Andy L. Jones, Scaling Scaling Laws with Board Games
  7. ^ LMSYS Chatbot leaderboard