知識蒸留

知識蒸留 (英: knowledge distillation) とは、機械学習の技術の一つ。大規模なモデル（教師モデル）が持つ豊富な知識を、より小さなモデル（生徒モデル）に伝達する手法^[1]。

概要[編集]

深層学習の分野では、2015年にGeoffrey Hintonらによって導入された^[2]。一般に大規模なモデルが持つ知識容量が全て利用されているとは限らず、推論の際に単に計算資源を無駄にしていることもある。教師モデルの出力や内部表現を生徒モデルに教えることで、推論の妥当性を大きく損なうことなく、生徒モデルがより効率よく推論速度を向上させるために用いられる^[1]。

脚注[編集]

^ ^a ^b “知識蒸留：巨大なモデルの知識を抽出する”. 日経Robotics（日経ロボティクス）. 2023年5月24日閲覧。
^ Geoffrey Hinton, Oriol Vinyals, Jeff Dean (2015-03-09). Distilling the Knowledge in a Neural Network. arXiv:1503.02531. doi:10.48550/arXiv.1503.02531.

[nikkei-1] “知識蒸留：巨大なモデルの知識を抽出する”. 日経Robotics（日経ロボティクス）. 2023年5月24日閲覧。

[2] Geoffrey Hinton, Oriol Vinyals, Jeff Dean (2015-03-09). Distilling the Knowledge in a Neural Network. arXiv:1503.02531. doi:10.48550/arXiv.1503.02531.

[1]

[2]