強化学習

出典: フリー百科事典『ウィキペディア(Wikipedia)』
TD学習から転送)
ナビゲーションに移動 検索に移動

強化学習(きょうかがくしゅう、: reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習Q学習が知られている。

マルコフ決定過程[編集]

マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。

  • 環境は状態を持ち、それは完全に正確に観測可能。
  • エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
  • 報酬の指数移動平均を最大化するように行動する。

環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

基本的なモデルでは、環境の状態や行動は離散であるが、連続とするモデルもある。状態および行動が有限集合の場合は有限マルコフ決定過程という。

動的計画法[編集]

動的計画法(dynamic programming)は環境のダイナミクス(状態遷移確率および報酬)が既知の場合に使える手法。[1]

モンテカルロ法[編集]

モンテカルロ法(Monte Carlo methods)とは行動によって得られた報酬経験だけを頼りに状態価値関数や行動価値関数を推定する方法のことを指す[2]。この方法はある状態 s から、得られる報酬の合計を予測しそれを基に状態の価値と次に行う行動を決定する。状態価値関数を V(s)、行動価値関数を Q(s, a) で表す(ここで a は状態 s で行う行動である)とき、モンテカルロ法は以下の式で値を更新する。

ここで、αは学習率(0 < α < 1)である。また Rt はシミュレーションによって得られる報酬の総和を未来に得られる分、割り引いたものであり、以下の式で表される。

ここで rt は時刻 t で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態価値関数および行動価値関数を学習する。

TD学習[編集]

TD学習(temporal difference learning)は報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。[3]

SARSA[編集]

SARSA(state–action–reward–state–action)は方策オン型のTD学習。

Q学習[編集]

Q学習(Q-learning)は方策オフ型のTD学習。

神経科学[編集]

ヒトを含む高等生物は強化学習を行っていると思われる。 神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核ドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。

参照[編集]

  1. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 73. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 
  2. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 91. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 
  3. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 119. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 

外部リンク[編集]