万能近似定理
万能近似定理(ばんのうきんじていり、英: Universal approximation theorem)とは、ニューラルネットワークが一定の条件のもとで連続関数を任意の精度で近似できることを示す。特に、1つの隠れ層を持つフィードフォワード型ニューラルネットワークが、適切な活性化関数を用いることで、コンパクト集合上の任意の連続関数を近似できることを示す定理として広く知られている[1]。
定理の記述
[編集]コンパクト集合上の連続関数 と任意の に対し、有限個の係数 、重みベクトル、バイアス が存在して、
が成立する。ここでは活性化関数である。
条件
[編集]この定理が成立するためには、活性化関数が一定の条件を満たす必要がある。例えば、シグモイド型活性化関数や、非定数かつ有界な単調関数などが典型的な例として知られている[2]。
解釈と限界
[編集]万能近似定理は、ニューラルネットワークが理論的に高い表現能力を持つことを示している。しかし、この定理は近似の存在を保証するものであり、必要なユニット数や学習アルゴリズムによる実現可能性については直接は述べていない。
歴史
[編集]1980年代後半には、ニューラルネットワークの関数近似能力に関する理論的研究が進展した。
船橋賢一は、Kolmogorov–Arnold–Sprecherの定理に基づき、Rumelhart-Hinton-Williamネットワーク [3] のような4層のフィードフォワード型ニューラルネットワークは、シグモイド関数およびそれを一般化した活性化関数を用いて、多変数からなる連続写像を任意の精度で近似できることを示し、1988年にATRの技術報告として発表した [4]。この結果は多出力写像にも適用される。
その後、1989年には、Irie と Miyake [5] が提案した積分公式を出発点として、隠れ層の出力関数にシグモイド関数を用い、入力層および出力層には線形出力関数を用いる3層(隠れ層1層)ニューラルネットワークによって、任意の連続写像が一様位相の意味で任意精度に近似可能であること、さらに、帰納法により任意の k(≥3) 層ネットワークについても同様の近似能力が成立することを示した[6]。
同年、Hornik、Stinchcombe、Whiteは、一定の条件を満たす活性化関数のもとで、1つの隠れ層を持つフィードフォワードネットワークが普遍近似能力を有することを示した[2]。
また、Cybenkoは同年、シグモイド型活性化関数の場合について、積分表現に基づく別の証明を与えた[1]。
これらの結果は、ニューラルネットワークの普遍近似能力を示すものであり、一般に「万能近似定理」と総称される。
拡張
[編集]その後の研究により、万能近似定理は以下のように拡張されている。
- ReLUなどの非シグモイド活性化関数への拡張
- 深層ニューラルネットワークの表現能力の解析
- 近似効率および汎化能力に関する理論的研究
脚注
[編集]- 1 2 Cybenko, George (December 1989). “Approximation by superpositions of a sigmoidal function”. Mathematics of Control, Signals and Systems 2: 303–314. doi:10.1007/BF02551274.
- 1 2 Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (July 1989). “Multilayer feedforward networks are universal approximators”. Neural Networks 2 (5): 359–366. doi:10.1016/0893-6080(89)90020-8.
- ↑ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. (1988). “Phoneme recognition: neural networks vs. hidden Markov models vs. hidden Markov models”. International Conference on Acoustics, Speech, and Signal Processing. pp. 107–110.
- ↑ “On the approximate realization of continuous mappings by neural networks”. ATR Technical Report. ATR (1988年5月). 2026年4月28日閲覧。
- ↑ Irie, B.; Miyake, S. (1988). “Capabilities of three-layered Perceptrons.”. IEEE International Conference on Neural Networks. Vol. 1. pp. 641–648.
- ↑ Funahashi, Ken-ichi (May 1989). “On the approximate realization of continuous mappings by neural networks”. Neural Networks 2 (3): 183–192. doi:10.1016/0893-6080(89)90003-8.