正規化線形関数

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動
x = 0近傍での正規化線形関数(青)およびソフトプラス関数(緑)のプロット

正規化線形関数(せいきかせんけいかんすう、: Rectified linear functionあるいは単にrectifier[1]とも)は、その独立変数

の正の部分として定義される活性化関数である。上式において、xはニューロンへの入力である。これはランプ関数(傾斜路関数)としても知られ、電気工学における半波整流回路と類似している。この活性化関数は、2000年にHahnloseらによって強い生物学的動機と数学的正当化を持って、動的ネットワークへ最初に導入された[2][3]。2011年以前に広く使われていた活性化関数、例えばロジスティックシグモイド(これは確率論から発想を得ている。ロジスティック回帰を参照。)およびそのより実践的な[4]機能的に同等な関数である双曲線正接関数と比較して、より深いネットワークのより良い訓練を可能にすることが2011年に初めて実証された[5]。正規化線形関数は、2018年現在、ディープニューラルネットワークのための最も人気のある活性化関数である[6][7]

正規化線形関数を利用したユニットは正規化線形ユニット(rectified linear unit、ReLU)とも呼ばれる[8]

正規化線形ユニットはディープニューラルネットワークを用いたコンピュータビジョン[5]音声認識[9][10]に応用されている。

ソフトプラス[編集]

正規化線形関数に対する平滑化近似が解析関数

であり、ソフトプラス(softplus)関数[11][5]またはSmoothReLU関数[12]と呼ばれる。ソフトプラスの導関数はロジスティック関数である。ロジスティック関数は、正規化線形関数の導関数であるヘヴィサイドの階段関数の平滑化近似である。

単変数ソフトプラスの多変数一般化は、第一独立変数をゼロとしたLogSumExp関数英語版

である。LogSumExp関数自身は

であり、その勾配はソフトマックス関数英語版である。第一独立変数がゼロのソフトマックスは、ロジスティック関数の多変数一般化である。LogSumExpとソフトマックスはどちらも機械学習に用いられる。

派生物[編集]

ノイジーReLU[編集]

正規化線形ユニットはガウス雑音を含むように拡張できる。これはnoisy(雑音のある)ReLUと呼ばれ、以下の式を与える[8]

, with

Noisy ReLUはコンピュータビジョン問題のための制限ボルツマンマシン英語版において使用され、ある程度の成功を挙げている[8]

漏洩ReLU[編集]

漏洩(リーキー、Leaky)ReLUは、ユニットがアクティブでない時に小さな正の勾配を許容する[10]

パラメトリックReLU[編集]

パラメトリックReLU(PReLU)はさらにこの着想を発展させ、漏れの係数を他のニューラルネットワークのパラメータと同時に学習する[13]

について、これは

と等価であり、ゆえに「マックスアウト」ネットワークとの関連があることに留意すべきである[13]

ELU[編集]

指数関数的線形ユニット(Exponential linear unit)は、学習を高速化するため、平均活性化をゼロに近づけようと試みる。ELUははReLUよりも高い分類制度を得ることができることが示されている[14]

はチューニングされるハイパーパラメータ英語版は定数である。

長所[編集]

  • 生物学的妥当性: tanh反対称性と比較して、片側。
  • 疎な活性化: 例えば、無作為に初期化されたネットワークでは、隠れユニットの約50%のみが活性化される(ゼロでない出力を持つ)。
  • より良い勾配伝搬: 両方向に飽和するシグモイド活性化関数と比較して、勾配消失問題英語版が少ない。
  • 効率的計算: 比較、加算、乗算のみ。
  • スケールによって影響を受けない:

正規化線形関数は、複数のコンピュータビジョン課題を学習するために教師ありで訓練されたニューラル抽象ピラミッド(Neural Abstraction Pyramid)において特異的興奮と非特異的抑制を分離するために用いられた[15]。2011年[5]、非線形関数としての正規化線形関数の使用は、教師なし事前学習を必要とせずに教師ありディープニューラルネットワークの訓練を可能にすることが示されている。正規化線形ユニットは、シグモイド関数または類似の活性化関数と比較して、大きく複雑なデータセット上のディープニューラル構造のより速く、効率的な訓練を可能にする。

潜在的な問題[編集]

  • 原点において微分不可能: しかしながら、その点以外ではどこでも微分可能であり、入力が0の点を埋めるために0または1の値を任意に選ぶことができる。
  • 原点を中心としてない
  • 有界でない
  • Dying ReLU問題: ReLUニューロンは、実質的に全ての入力に対して不活性となる状態に入り込むことがあり得る。この状態において、勾配はこのニューロンを通って逆方向に流れないため、このニューロンは永久に不活性な状態で動かなくなり、「死」んでしまう。これは勾配消失問題の一種である。ある場合において、ネットワーク中の多くのニューロンが死状態で動かなることがありえて、これはモデル容量を著しく低下させる。この問題は高過ぎる学習率が設定されている時に典型的に起こる。代わりに、x = 0の左側に小さな正の勾配を割り当てるリーキーReLUを用いることによって問題を緩和することができる。

出典[編集]

  1. ^ 整流器の意味
  2. ^ Hahnloser, R.; Sarpeshkar, R.; Mahowald, M. A.; Douglas, R. J.; Seung, H. S. (2000). “Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit”. Nature 405: 947–951. doi:10.1038/35016072. 
  3. ^ R Hahnloser, H.S. Seung (2001). “Permitted and Forbidden Sets in Symmetric Threshold-Linear Networks”. NIPS 2001 
  4. ^ Yann LeCun, Leon Bottou, Genevieve B. Orr and Klaus-Robert Müller (1998). “Efficient BackProp”. In G. Orr and K. Müller. Neural Networks: Tricks of the Trade. Springer. http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf. 
  5. ^ a b c d Xavier Glorot, Antoine Bordes and Yoshua Bengio (2011). “Deep sparse rectifier neural networks”. AISTATS. http://jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf. "Rectifier and softplus activation functions. The second one is a smooth version of the first." 
  6. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep learning”. Nature 521 (7553): 436–444. Bibcode2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. 
  7. ^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (2017年10月16日). “Searching for Activation Functions”. arXiv:1710.05941 [cs.NE]. 
  8. ^ a b c Vinod Nair and Geoffrey Hinton (2010). “Rectified Linear Units Improve Restricted Boltzmann Machines”. ICML. https://www.cs.toronto.edu/~hinton/absps/reluICML.pdf 
  9. ^ László Tóth (2013). “Phone Recognition with Deep Sparse Rectifier Neural Networks”. ICASSP. http://www.inf.u-szeged.hu/~tothl/pubs/ICASSP2013.pdf 
  10. ^ a b Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models
  11. ^ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (2000-01-01). “Incorporating second-order functional knowledge for better option pricing”. Proceedings of the 13th International Conference on Neural Information Processing Systems (NIPS'00) (MIT Press): 451–457. http://papers.nips.cc/paper/1920-incorporating-second-order-functional-knowledge-for-better-option-pricing.pdf. "Since the sigmoid h has a positive first derivative, its primitive, which we call softplus, is convex" 
  12. ^ Smooth Rectifier Linear Unit (SmoothReLU) Forward Layer” (英語). Developer Guide for Intel® Data Analytics Acceleration Library (2017年). 2018年12月4日閲覧。
  13. ^ a b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015年). “Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification”. arXiv:1502.01852 [cs.CV]. 
  14. ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015年). “Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)”. arXiv:1511.07289 [cs.LG]. 
  15. ^ Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science. 2766. Springer. doi:10.1007/b11963. https://www.researchgate.net/publication/220688219_Hierarchical_Neural_Networks_for_Image_Interpretation. 

関連項目[編集]