「時間差分学習」の版間の差分
表示
削除された内容 追加された内容
冒頭の文章はen:Temporal difference learning 05:05, 27 November 2023を翻訳。一部はQ学習 2023年12月2日 (土) 16:34から改変。 |
(相違点なし)
|
2023年12月2日 (土) 17:01時点における版
機械学習および データマイニング |
---|
Category:データマイニング |
時間差分学習(TD学習、英: temporal difference learning)とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。[1]
状態価値関数 は、現在および将来に得られる報酬になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率をかけた物を使用する。
考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。[2]
アルゴリズム
状態 のエージェントが行動 を選び、報酬 を得て、状態が に遷移したとする。このとき状態価値関数 を次の式で更新する。
ここで は学習率といい、 とする。 は割引率といい、 な定数である。
行動 は、状態価値関数を使用して選択する。
参照
- ^ Sutton & Barto (2018), p. 133.
- ^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009 .