多層パーセプトロン

多層パーセプトロン（たそうパーセプトロン、英: Multilayer perceptron、略称: MLP）は、順伝播型ニューラルネットワークの一分類である。MLPは少なくとも3つのノードの層からなる。入力ノードを除けば、個々のノードは非線形活性化関数を使用するニューロンである。MLPは学習のために誤差逆伝播法（バックプロパゲーション）と呼ばれる教師あり学習手法を利用する^[1]^[2]。その多層構造と非線形活性化関数が、MLPと線形パーセプトロンを区別している。MLPは線形分離可能ではないデータを識別できる^[3]。

多層パーセプトロンは時折、特に単一の隠れ層を持つ時、「バニラ」ニューラルネットワークと口語的に呼ばれることがある^[4]。

理論[編集]

活性化関数[編集]

多層パーセプトロンが全てのニューロンにおいて線形活性化関数、すなわち、個々のニューロンの出力に重み付けされた入力（英語版）をマップする線形関数を持つとすると、線形代数から、いかなる数の層も2層からなる入力-出力モデルに削減することができることが示される。MLPでは、一部のニューロンは、生物学的ニューロンの活動電位の頻度および発火をモデル化するために開発された「非線形」活性化関数を用いる。

一般的な2つの活性化関数はどちらもシグモイドであり、以下の式で表わされる。

y(v_{i})=\tanh(v_{i})~~{\textrm {and}}~~y(v_{i})=(1+e^{-v_{i}})^{-1}

1つ目の式は−1から1の範囲の双曲線正接（tanh）関数であり、2つ目の式はロジスティック関数である。ロジスティック関数は双曲線正接関数と形状が似ているが範囲は0から1である。ここで、 $y_{i}$ は $i$ 番目のノード（ニューロン）の出力であり、 $v_{i}$ は入力接続の加重和である。他に、Rectifierおよびsoftplus関数を含む活性化関数が提案されている。より専門分野に特化した活性化関数に放射基底関数がある（教師ありニューラルネットワークモデルの一分類である放射基底ネットワーク（英語版）で使われる）。

層[編集]

MLPは、非線形的に活性化されるノードの3つ以上の層（入力層と出力層と1つ以上の「隠れ層」）からなり、ディープニューラルネットワークを作り出す。MLPは全結合（fully connected）のため、1つの層中のそれぞれのノードは次の層中の全てのノードと任意の重み $w_{ij}$ で結合している。

学習[編集]

学習は、個々のデータが処理された後に、期待される結果と比較した出力中の誤差の大きさに基づいて、結合加重を変化させることによってMLPにおいて起こる。これは教師あり学習の一例であり、誤差逆伝播法（バックプロパゲーション）を用いて実行される。誤差逆伝播法は、線形パーセプトロンにおける最小二乗法アルゴリズムの一般化である。

$n$ 番目のデータポイント（訓練例）における出力ノード $j$ の誤差は、 $e_{j}(n)=d_{j}(n)-y_{j}(n)$ と表わされる。上式において、 $d$ は目標値、 $y$ はパーセプトロンによって作り出される値である。ノードの重みは、全出力における誤差

{\mathcal {E}}(n)={\frac {1}{2}}\sum _{j}e_{j}^{2}(n)

を最小化する補正に基づいて調整される。

最急降下法を用いると、それぞれの重みにおける変化は以下の式で表わされる。

\Delta w_{ji}(n)=-\eta {\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}y_{i}(n)

上式において、 $y_{i}$ は一つ前のニューロンの出力、 $\eta$ は「学習率」である。学習率は、重みが振動することなく反応に対してすばやく収束するように選択される。

計算される導関数はinduced local field $v_{j}$ に依存し、それ自身も変動する。出力ノードについて、この導関数が

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=e_{j}(n)\phi ^{\prime }(v_{j}(n))

と単純化できることを証明するのは容易である。上式において、 $\phi ^{\prime }$ は上述した活性化関数の導関数であり、それ自身は変化しない。隠れ層への重みの変化についての解析はより難しいが、関連のある導関数は以下のように表わすことができる。

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=\phi ^{\prime }(v_{j}(n))\sum _{k}-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{k}(n)}}w_{kj}(n)

.

これは、出力層を表わす $k$ 番目のノードの重みの変化に依存する。したがって隠れ層の重みを変化させるには、活性化関数の導関数にしたがって出力層の重みを変化させる。したがってこのアルゴリズムは活性化関数の逆伝播（バックプロパゲーション）に相当する^[5] 。

用語[編集]

「多層パーセプトロン」という用語は、複数の層を持つ単一のパーセプトロンを意味しない。むしろ、層へと組織化された多くのパーセプトロンを含む。代替用語は「多層パーセプトロンネットワーク」である。さらに、MLP「パーセプトロン」は、最も厳密に言えばパーセプトロンではない。真のパーセプトロンは正式には、ヘヴィサイドの階段関数といった閾値活性化関数を用いる人工ニューロンの特殊な場合である。MLPパーセプトロンは任意の活性化関数を用いることができる。真のパーセプトロンは二項分類を実行する。対して、MLPニューロンは、その活性化関数に依存して分類あるいは回帰のどちらを実行するかは自由である。

「多層パーセプトロン」という用語は後に、ノード/層の特性に関係なく適用されるようになった。ノード/層は、パーセプトロンに限定されず、任意に定義されたニューロンから構成することができる。この解釈は、一般に人工ニューロンを意味するところの「パーセプトロン」の定義の緩和を避けている。

応用[編集]

MLPは、確率的に問題を解くことができるため研究において有用である。MLPは適応度近似（英語版）のような極めて複雑な問題に対する近似解をしばしば与える。

MLPはCybenkoの定理（英語版）によって示されているように普遍的な関数近似器であるため^[3]、回帰分析によって数理モデルを作成するために使うことができる。分類は、応答変数がカテゴリ一変数（英語版）である時の回帰の特殊な例であり、MLPはよい分類アルゴリズムを作る。

MLPは1980年代に人気のある機械学習法であり、音声認識や画像認識、機械翻訳ソフトウェアといった多様な分野に応用されたが^[6]、その後より単純な（そして関連する^[7]）サポートベクターマシンとの激しい競争に直面した。ディープラーニングの成功によってバックプロパゲーションネットワークへの関心が戻った。

脚注[編集]

^ Rosenblatt, Frank (1961). Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Washington DC: Spartan Books. ASIN B0006AXUII
^ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams (1986). “Learning Internal Representations by Error Propagation”. In David E. Rumelhart, James L. McClelland, and the PDP research group. (editors). Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press. ISBN 9780262181204
^ ^a ^b Cybenko, G. (1989). “Approximation by superpositions of a sigmoidal function”. Math. Control Signals Syst. 2 (4): 303–314. doi:10.1007/BF02551274.
^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York, NY: Springer. ISBN 978-0-387-84858-7
^ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1
^ Wasserman, P.D.; Schwartz, T. (1988). “Neural networks. II. What are they and why is everybody so interested in them now?”. IEEE Expert 3 (1): 10-15. doi:10.1109/64.2091.
^ Collobert, R.; Bengio, S. (2004). “Links between Perceptrons, MLPs and SVMs”. Proc. Int'l Conf. on Machine Learning (ICML): 23. doi:10.1145/1015330.1015415.

外部リンク[編集]

A Gentle Introduction to Backpropagation - An intuitive tutorial by Shashi Sathyanarayana This is an updated PDF version of a blog article that was previously linked here. This article contains pseudocode ("Training Wheels for Training Neural Networks") for implementing the algorithm.
Weka: Open source data mining software with multilayer perceptron implementation.

[1] Rosenblatt, Frank (1961). Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Washington DC: Spartan Books. ASIN B0006AXUII

[2] Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams (1986). “Learning Internal Representations by Error Propagation”. In David E. Rumelhart, James L. McClelland, and the PDP research group. (editors). Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press. ISBN 9780262181204

[Cybenko1989-3] Cybenko, G. (1989). “Approximation by superpositions of a sigmoidal function”. Math. Control Signals Syst. 2 (4): 303–314. doi:10.1007/BF02551274.

[4] Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York, NY: Springer. ISBN 978-0-387-84858-7

[5] Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1

[6] Wasserman, P.D.; Schwartz, T. (1988). “Neural networks. II. What are they and why is everybody so interested in them now?”. IEEE Expert 3 (1): 10-15. doi:10.1109/64.2091.

[7] Collobert, R.; Bengio, S. (2004). “Links between Perceptrons, MLPs and SVMs”. Proc. Int'l Conf. on Machine Learning (ICML): 23. doi:10.1145/1015330.1015415.

[1]

[2]

[3]

[4]

[5]

[6]

[7]