ニューラルスケーリング則

機械学習において、ニューラルスケーリング則（にゅーらるすけーりんぐそく、英: neural scaling law）は、ニューラルネットワークのパラメータに関するスケーリング則である。^[1]^[2]

概要[編集]

一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データセットの大きさ、訓練コスト、訓練後の性能という４つのパラメータにより特徴付けられる。４つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、 $N,D,C,L$ （パラメータ数、データセットの大きさ、計算コスト、損失）と表記される。

モデルの大きさ[編集]

ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル^[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル（Transformer など）では、常にすべてのパラメータを利用して推論が行われる。

訓練データセットの大きさ[編集]

訓練データセットの大きさは通常、それに含まれるデータ点の数で定量化される。モデルの学習には豊富で多様な情報源が必要であるため、訓練データセットはより大きなものが好まれる。これにより、モデルを未知のデータを適用した際の汎化性能が向上する。^[4] しかし、訓練データセットを大きくすることは、モデルの訓練に必要な計算リソースと時間が増加することも意味する。

ほとんどの大規模言語モデルで用いられている「事前に訓練し、微調整する」方法では、事前訓練データセットと微調整データセットと呼ばれる、２種類の訓練データセットが用いられる。これらの大きさはモデルの性能にそれぞれ異なる影響を及ぼす。一般的に、微調整には事前訓練時と比べて1%未満の大きさのデータセットが用いられる。^[5]

微調整には少数の高品質なデータで十分であり、より多くのデータを用いても性能が向上しない場合もある。^[5]

訓練コスト[編集]

訓練コストは通常、時間（訓練にどれだけの時間が必要か）と計算リソース（訓練にはどれだけの計算能力とメモリが必要か）の観点から測られる。特筆すべきは、訓練コストは効率的な訓練アルゴリズム、最適化されたソフトウェア、GPU や TPU 上での並列計算により大幅に削減できることである。

ニューラルネットワークモデルの訓練コストは、モデルの大きさ、訓練データセットの大きさ、訓練アルゴリズムの複雑さ、利用可能な計算リソースといった要素の関数として考えることができる。^[4] 特に、訓練データセットを２倍に増やすことは、必ずしも訓練コストが２倍になることを意味しない。これは、あるデータセット（これを１エポックとして扱う）に対して何回もモデルを訓練することがあるためである。

性能[編集]

ニューラルネットワークモデルの性能は、与えられた入力から、どれほど正確に出力を予測できるかで評価される。一般的な評価指標としては以下がある。^[4]

識別タスクにおける、正解率、適合率、再現率、F1 スコア（英: accuracy, precision, recall, F1 score）
回帰タスクにおける、平均二乗誤差（MSE）や平均絶対誤差（MAE）
言語モデルにおける、トークンあたりの負の対数尤度（パープレキシティの対数）
他のモデルに対するイロレーティング（例: コンピュータチェス^[6]や人間による評価^[7]）

モデルの性能は、より多くのデータ、より大きなモデル、異なる訓練アルゴリズムの併用、過適合の防止、検証データセットによる早期終了により改善することができる。

参考文献[編集]

^ Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。
^ Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。
^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346.
^ ^a ^b ^c Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
^ ^a ^b Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia et al. (2023-05-01). LIMA: Less Is More for Alignment.
^ Andy L. Jones, Scaling Scaling Laws with Board Games
^ LMSYS Chatbot leaderboard

[1] Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。

[2] Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。

[3] Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346.

[goodfellow-4] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

[:2-5] Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia et al. (2023-05-01). LIMA: Less Is More for Alignment.

[6] Andy L. Jones, Scaling Scaling Laws with Board Games

[7] LMSYS Chatbot leaderboard

[1]

[2]

[3]

[4]

[5]

[6]

[7]