コンテンツにスキップ

「時間差分学習」の版間の差分

出典: フリー百科事典『ウィキペディア（Wikipedia）』

新しい編集 →

削除された内容追加された内容

ビジュアルウィキテキスト

インライン

2023年12月2日 (土) 17:01時点における版

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習（英語版）教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF（英語版） PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN U-Net
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

時間差分学習（TD学習、英: temporal difference learning）とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。^[1]

状態価値関数 $V(s)$ は、現在および将来に得られる報酬になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率をかけた物を使用する。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。^[2]

アルゴリズム

状態 $s_{t}$ のエージェントが行動 $a_{t}$ を選び、報酬 $r_{t}$ を得て、状態が $s_{t+1}$ に遷移したとする。このとき状態価値関数 $V(s_{t})$ を次の式で更新する。

V(s_{t})\leftarrow (1-\alpha )V(s_{t})+\alpha \left[r_{t}+\gamma V(s_{t+1})\right]

ここで $\alpha$ は学習率といい、 $0<\alpha <1$ とする。 $\gamma$ は割引率といい、 $0<\gamma <1$ な定数である。

行動 $a_{t}$ は、状態価値関数を使用して選択する。

参照

^ Sutton & Barto (2018), p. 133.
^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. https://doi.org/10.1007/BF00115009.

関連項目

「https://ja.wikipedia.org/w/index.php?title=時間差分学習&oldid=98288520」から取得

隠しカテゴリ:

日本語版記事がリダイレクトの仮リンクを含む記事