バックプロパゲーション
| 機械学習および データマイニング |
|---|
|
|
バックプロパゲーション(英: backpropagation, backprop)または誤差逆伝播法(ごさぎゃくでんぱほう、英: error backpropagation)[1]とは、ニューラルネットワークの損失関数のパラメータに関する偏微分を、自動微分のトップダウン型(リバース・モード)と同様の手法により、出力側から偏微分を計算し、誤差を伝播させる方法で、効率よく計算する手法である。一般的には、ここで計算した偏微分を使用し、確率的勾配降下法でニューラルネットワークを学習させる。用語は曖昧に使用されていて、バックプロパゲーションに確率的勾配降下法まで含んで使われている事も多い。[2]
概要
[編集]バックプロパゲーションは数理モデルであるニューラルネットワークのパラメータに関する偏微分を計算する手法で、確率的勾配降下法はパラメータを更新する(学習する)手法である。
バックプロパゲーションおよび確率的勾配降下法は次の通りである:
- ニューラルネットワークに学習のためのサンプルを与える。
- ネットワークの出力を求め、出力層における誤差を求める。その誤差を用い、各出力ニューロンについて誤差を計算する。
- 個々のニューロンの期待される出力値と倍率 (scaling factor)、要求された出力と実際の出力の差を計算する。これを局所誤差と言う。
- 各ニューロンの重みを局所誤差が小さくなるよう調整する。
- より大きな重みで接続された前段のニューロンに対して、局所誤差の責任があると判定する。
- そのように判定された前段のニューロンのさらに前段のニューロン群について同様の処理を行う。
誤差逆伝播法という名称が示唆するように、誤差(および学習)は出力ノードから入力ノードへと逆向きに伝播する。技術的に言えば、バックプロパゲーションはネットワーク上の変更可能なパラメータについて、誤差の傾斜、つまり損失関数の偏微分を計算するものである[3]。数式での実際の計算方法は後述する。
出力側から偏微分を計算すると計算効率が良くなる理由は、損失関数の出力がスカラーであることに起因するのだが、詳細は自動微分を参照。
確率的勾配降下法
[編集]バックプロパゲーションで計算した偏微分値は、ほとんどの場合、損失関数の誤差を最小にするアルゴリズムである確率的勾配降下法と共に使用される[4]。
を教師データとし、モデル に対する損失関数 を定義したとき、現在の重み における の傾きすなわち偏微分値 がわかれば、最適化手法である確率的勾配降下法を用いて損失 が小さくなるように を更新(=学習)できる。バックプロパゲーションの目的はこの偏微分値を効率よく計算することである。
本来は偏微分の計算方法だけを指すのだが、「バックプロパゲーション」という用語は曖昧に使われ、偏微分の計算方法と確率的勾配降下法も含めた全体を示す事に使われることも多い。確率的勾配降下法は通常収束して、対象ネットワークの誤差の局所解(区間を限定したときの極小値、極値参照)を探し出す。人工ニューロン(または「ノード」)で使われる活性化関数は微分可能関数でなければならない[5]。
数理最適化問題の一種であるため、バッチ学習・オンライン学習のいずれかが採用される。典型的には確率的勾配降下法を用いたミニバッチ学習が行われる。
自動微分
[編集]バックプロパゲーションは、自動微分のトップダウン型(リバース・モード)という汎用技法の特殊ケースである。昔は手作業で偏微分の式変形を行っていたが、現在は PyTorch や TensorFlow などのニューラルネットワークのライブラリには自動微分の機能が含まれているので、簡単に使えるようになっている。膨大数の偏微分値を自動微分により高速計算することで、極めて多次元の最適化計算の実用的な高速化が可能となる。
計算方法
[編集]現代では、通常は、損失関数のパラメータに関する偏微分(バックプロパゲーション)は自動微分を使用するものであるが、ここでは手計算で式変形を行う。計算内容は自動微分のトップダウン型(リバース・モード)と同一である。[6]
下記の式変形では合成関数の偏微分の連鎖律を使用しているが、詳細は自動微分を参照。
モデル
[編集]回帰問題で、入力はD次元のベクトル、出力はK次元ベクトル、モデルは2層の多層パーセプトロンとする。
- 入力層: 次元ベクトル
- 隠れ層: 次元ベクトル
- 重み行列: (成分 は入力 から隠れ素子 への重み)
- バイアス: (成分 )
- 出力:
- 活性化関数:
- 出力層: 次元ベクトル
- 重み行列: (成分 は隠れ素子 から出力素子 への重み)
- バイアス: (成分 )
- 出力:
- 活性化関数: 恒等写像(線形)
- 正解データ:
損失関数
[編集]損失関数は二乗和誤差を使用する。出力ベクトル と正解ベクトル の要素ごとの差の二乗和である。微分を簡単にするため係数 をつける。
順伝播(出力の計算)
[編集]隠れ層の計算
出力層の計算
逆伝播(バックプロパゲーション)
[編集]出力側から損失関数のパラメータに関する偏微分を計算する。
出力層の第 番目の素子の内部状態 に対する勾配を求める。損失関数の総和 のうち、 に関係するのは第 項のみであることに注意する。
これを用いて、出力層の重み とバイアス の勾配を求める。
出力層の重みの勾配
出力層のバイアスの勾配
次に、誤差を隠れ層へ逆伝播させる。
隠れ層の入力 に対する勾配を求める。
ここで、これらを代入すると、
隠れ層の誤差は以下になる。
これを用いて、隠れ層のパラメータの勾配を求める。
隠れ層の重みの勾配
隠れ層のバイアスの勾配
歴史
[編集]確率的勾配降下法およびバックプロパゲーション(出力側から偏微分)に相当するニューラルネットワークの学習手法は1960年代に開発されたものだが、定着せず、その後、何度も再発見され、1986年より標準的な手法として普及した。
- 1951年、Herbert Robbins等が確率的勾配降下法を発表した。[7]
- 1960年、バーナード・ヴィドローとマーシャン・ホフが、二値分類問題に対して、損失関数が二乗誤差損失の形式ニューロン(入出力が二値の線形分類器、つまり、活性化関数が符号関数の1層の単純パーセプトロン)を確率的勾配降下法で学習させる方法を発表した[8][9]。Widrow-Hoff法(デルタルール)と命名した。学習させる際は、活性化関数の符号関数を外して内側の線形モデルに対して学習させる。二乗誤差の線形モデルなので、偏微分は出力誤差を使用したものになり、論文では、誤差のフィードバックで学習させていると書かれているが、単なる線形モデルなので、誤差を伝播させる話ではない。
- 1964年、R.E. Wengertが自動微分を発表した[10]。論文で書かれていたのは入力側から偏微分する方法(ボトムアップ型、フォーワード・モード)で、Andreas Griewank によると、計算の効率化のために出力側から偏微分する方法(トップダウン型、リバース・モード)を誰が考案したのか判然とはしないが、1960年代後半には提案されていた[11]。出力側から偏微分する方法はバックプロパゲーションと同じ計算方法である。
- 1967年、甘利俊一がニューラルネットワークの最も基本的な形である多層パーセプトロンを確率的勾配降下法で学習させ、その理論的解析を書いた論文を発表した[12][13]。翌年1968年に書籍『情報理論II ―情報の幾何学的理論―』[14]にて詳しく解説した。書籍には判別面がギザギザの線形分離不可能な例を学習させるものが紹介されている。1967年の論文には具体例がなく、1968年の書籍のp.119に載っている具体例のモデルは、入力が2次元ベクトル、出力がスカラーの二値分類問題で、1966年のR. O. Duda等の手書き文字認識のモデル[15]を改変した という区分的線形識別関数のモデルであり、これは、中間層の活性化関数にReLUを使用した場合の多層パーセプトロンと等価ではあるが、これが多層パーセプトロンであるという記述は書籍側にはなく、また、出力側から偏微分を計算するという話も書かれてはいない。
- 1969年、アーサー・E・ブライソン& 何毓琦[16][17]: 多段動的システム最適化手法として提案
- 1974年、ポール・ワーボス[18]: ニューラルネットワークにおける応用を示唆
- 1986年、デビッド・ラメルハート、ジェフリー・ヒントン、ロナルド・J・ウィリアムス[19][20]: backwards propagation of errors(逆向きの誤差の伝播)の略からバックプロパゲーションの名で出力側から偏微分を計算する方法を再発明し、この論文では確率的勾配降下法ではなく最急降下法が使用されているのだが、直後から以後、確率的勾配降下法を使用する方法を含めて定着した。
その他
[編集]ニューラルネットワークを学習させる際のテクニックや限界などはニューラルネットワークを参照。
脚注
[編集]- ^ 逆誤差伝搬法(ぎゃくごさでんぱんほう)と呼ばれることもあるが,電波伝播に対する電波伝搬と同じく誤読に起因する誤字である。
- ^ イアン・グッドフェロー、ヨシュア・ベンジオ、Aaron Courville『深層学習』KADOKAWA、2018年3月7日。ISBN 978-4048930628。
- ^ Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.
- ^ “What is stochastic gradient descent? | IBM” (英語). www.ibm.com (2025年9月26日). 2026年1月27日閲覧。
- ^ “Stochastic Gradient Descent”. 2026年1月10日閲覧。
- ^ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1
- ^ Robbins, Herbert; Monro, Sutton (1951). “A Stochastic Approximation Method”. The Annals of Mathematical Statistics (Institute of Mathematical Statistics) 22 (3): 400-407. doi:10.1214/aoms/1177729586.
- ^ Benerard Widrow; M.E. Hoff, Jr. (August 1960). “Adaptive Switching Circuits”. IRE WESCON Convention Record 4: 96-104.
- ^ Benerard Widrow; Michael A. Lehr (1995). Perceptorons, Adalines, and Backpropagation.
- ^ R.E. Wengert (1964). “A simple automatic derivative evaluation program”. Comm. ACM 7: 463–464. doi:10.1145/355586.364791.
- ^ Andreas Griewank (2012). “Who Invented the Reverse Mode of Differentiation”. Optimization Stories, Documenta Matematica Extra Volume ISMP: 389–400.
- ^ Shun-ichi Amari (June 1967). “Theory of adaptive pattern classifiers”. IEEE Transactions EC-1: 299–307. doi:10.1109/PGEC.1967.264666.
- ^ Shun-ichi Amari (2013). “Dreaming of mathematical neuroscience for half a century”. Neural Networks 37Baby: 48–51.
- ^ 甘利俊一「第5章 学習識別の理論」『情報理論II ―情報の幾何学的理論―』共立出版、1968年1月5日。ISBN 9784320020122。
- ^ Duda, R. O.; Fossum, H. (1966). “Pattern Classification by Iteratively Determined Linear and Piecewise Linear Discriminant Functions”. IEEE Transactions on Electronic Computers EC-15 (2): 220-232. doi:10.1109/PGEC.1966.264302.
- ^ Stuart Russell and Peter Norvig. Artificial Intelligence A Modern Approach. p. 578. "The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was largely ignored until the mid-1980s."
- ^ Arthur Earl Bryson, Yu-Chi Ho (1969). Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. pp. 481
- ^ Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974
- ^ Alpaydın, Ethem (2010). Introduction to machine learning (2nd ed. ed.). Cambridge, Mass.: MIT Press. p. 250. ISBN 978-0-262-01243-0. "...and hence the name backpropagation was coined (Rumelhart, Hinton, and Williams 1986a)."
- ^ Rumelhart, David E.; Hinton, Geoffrey E., Williams, Ronald J. (8 October 1986). “Learning representations by back-propagating errors”. Nature 323 (6088): 533–536. doi:10.1038/323533a0.