コンテンツにスキップ

時間差分学習

出典: フリー百科事典『ウィキペディア（Wikipedia）』

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習（英語版）教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF（英語版） PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN U-Net
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

時間差分学習（じかんさぶんがくしゅう、英: temporal difference learning）やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。^[1]

状態価値関数 $V(s)$ は、現在および将来に得られる報酬（reward）になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率（discount rate）をかけた物を使用する。これを割引収益（discounted return）と呼ぶ。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。^[2]

アルゴリズム[編集]

状態 $S_{t}$ のエージェントが行動 $A_{t}$ を選び、報酬 $R_{t+1}$ を得て、状態が $S_{t+1}$ に遷移したとする。このとき状態価値関数 $V(S_{t})$ を次の式で更新する。

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})\right]

ここで $\alpha$ は学習率といい、 $0<\alpha <1$ とする。 $\gamma$ は割引率といい、 $0<\gamma <1$ な定数である。

行動 $A_{t}$ は、状態価値関数を使用して選択する。

更新式は

V(S_{t})\leftarrow V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})-V(S_{t})\right]

とも書けるが、 $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$ をTD誤差（TD error）と呼ぶ。^[3]

参照[編集]

^ Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2nd ed.). Cambridge, MA: MIT Press. p. 133
^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. https://doi.org/10.1007/BF00115009.
^ Richard S. Sutton; Andrew G. Barto (2018). Reinforcement Learning, second edition: An Introduction. Bradford Books. ISBN 978-0262039246

関連項目[編集]

「https://ja.wikipedia.org/w/index.php?title=時間差分学習&oldid=98348289」から取得

隠しカテゴリ:

日本語版記事がリダイレクトの仮リンクを含む記事