ゲート付き回帰型ユニット

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

ゲート付き回帰型ユニット(ゲートつきかいきがたユニット、: Gated recurrent unit、略称: GRU)は、回帰型ニューラルネットワーク(RNN)におけるゲート機構である。2014年にKyunghyun Cho(조 경현)らによって発表された[1]。GRUは忘却ゲートを持つ長・短期記憶(long short-term memory、LSTM)に似ているが[2]、出力ゲートを欠くためLSTMよりもパラメータが少ない[3]。多声音楽モデリングおよび音声シグナルモデリングの特定の課題におけるGRUの性能は、LSTMの性能と類似していることが明らかにされている。GRUは特定のより小さなデータセットではもっと良い性能を示すことが明らかにされている[4]

しかしながら、Gail Weiss、Yoav Goldberg、およびEran Yahavによって示されているように、LSTMは無制限の計数を容易に実行できるがGRUはできないため、LSTMはGRUよりも「厳密に強力」である[5]。これが、LSTMによって学習可能な単純な言語の学習をGRUが失敗する理由である[5]

同様に、Google BrainのDenny Britz、Anna Goldie、Minh-Thang Luong、およびQuoc Leによって示されているように、LSTMセルは「ニューラル機械翻訳のためのアーキテクチャ変法の初の大規模分析」においてGRUセルを一貫して上回った[6]

アーキテクチャ[編集]

様々な組合せで以前の隠れ状態とバイアスを使ってゲーティングを行う完全ゲート付きユニットや最小ゲート付きユニット(minimal gated unit)と呼ばれる単純形など複数の変種が存在する。

以下の式において、演算子アダマール積を示す。

完全ゲート付きユニット[編集]

ゲート付き回帰型ユニットの完全ゲート付き版

最初、に対して、出力ベクトルはである。

変数

  • : 入力ベクトル
  • : 出力ベクトル
  • : 更新ゲートベクトル
  • : 初期化ゲートベクトル
  • 、および: パラメータ行列およびベクトル

活性化関数

という条件で、別の活性化関数も利用可能である。

タイプ1
タイプ2
タイプ3

およびを変更することによって代替形式を作ることができる[7]

  • タイプ1、それぞれのゲートが以前の隠れ状態およびバイアスにのみ依存する。
  • タイプ2、それぞれのゲートが以前の隠れ状態にのみ依存する。
  • タイプ3、それぞれのゲートはバイアスのみを使って計算される。

最小ゲート付きユニット[編集]

最小ゲート付きユニットは、更新ゲートベクトルおよび初期化ゲートベクトルが忘却ゲートへと統合されたことを除いて、完全ゲート付きユニットと類似している。これは、出力ベクトルに対する方程式が変更されなければならないこと になる[8]

変数

  • : 入力ベクトル
  • : 出力ベクトル
  • : 忘却ベクトル
  • 、および: パラメータ行列およびベクトル

出典[編集]

  1. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation". arXiv:1406.1078 [cs.CL]。
  2. ^ Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). “Learning to Forget: Continual Prediction with LSTM”. Proc. ICANN'99, IEE, London: 850-855. https://ieeexplore.ieee.org/document/818041. 
  3. ^ Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML”. 2016年5月18日閲覧。
  4. ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling". arXiv:1412.3555 [cs.NE]。
  5. ^ a b Weiss, Gail; Goldberg, Yoav; Yahav, Eran (2018). "On the Practical Computational Power of Finite Precision RNNs for Language Recognition". arXiv:1805.04908 [cs.NE]。
  6. ^ Britz, Denny; Goldie, Anna; Luong, Minh-Thang; Le, Quoc (2018). "Massive Exploration of Neural Machine Translation Architectures". arXiv:1703.03906 [cs.NE]。
  7. ^ Dey, Rahul; Salem, Fathi M. (2017-01-20). "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks". arXiv:1701.05923 [cs.NE]。
  8. ^ Heck, Joel; Salem, Fathi M. (2017-01-12). "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks". arXiv:1701.03452 [cs.NE]。

関連項目[編集]