「強化学習」の版間の差分

削除された内容追加された内容

インライン

2020年2月6日 (木) 10:02時点における版

強化学習（きょうかがくしゅう、英: Reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。

最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。

マルコフ決定過程

マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。

環境は状態を持ち、それは完全に正確に観測可能。
エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
報酬の指数移動平均を最大化するように行動する。

環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

モンテカルロ法

モンテカルロ法とは行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す^[1]。この方法はある状態 s から、得られる報酬の合計を予測しそれを基に状態の価値と次に行う行動を決定する。状態価値を V(s)、行動価値を Q(s, a) で表す（ここで a は状態 s で行う行動である）とき、モンテカルロ法は以下の式で値を更新する。

V(s)\leftarrow V(s)+\alpha \left[R_{t}-V(s)\right]

Q(s,a)\leftarrow Q(s,a)+\alpha \left[R_{t}-Q(s,a)\right]

ここで、αは学習率（0 < α < 1）である。また R_t はシミュレーションによって得られる報酬の総和を未来に得られる分、割り引いたものであり、以下の式で表される。

R_{t}=r_{t+1}+\gamma r_{t+2}+\gamma ^{2}r_{t+3}+\dotsb =\sum _{\tau =0}^{\infty }\gamma ^{\tau }r_{t+1+\tau }

ここで r_t は時刻 t で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、R_t が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。

TD学習

TD学習（temporal difference learning）はエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。

SARSA

SARSA（state–action–reward–state–action）は方策オン型のTD学習。

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha [r_{t}+\gamma Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]

Q学習

詳細は「Q学習」を参照

Q学習（Q-learning）は方策オフ型のTD学習。

連続空間

基本的なモデルでは、環境の状態や行動は離散であるが、連続とするモデルもある。

神経科学

ヒトを含む高等生物は強化学習を行っていると思われる。神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核はドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。

参照

^ Richard S., Sutton (1998). Reinforcement Learning: An Introduction. p. 91. ISBN 978-0262193986

外部リンク

Reinforcement Learning （英語） - スカラーペディア百科事典「強化学習」の項目。
強化学習とは？木村元ら
強化学習FAQ Suttonの強化学習FAQ(英語)の日本語訳

[1] Richard S., Sutton (1998). Reinforcement Learning: An Introduction. p. 91. ISBN 978-0262193986

[1]

@@ 34行目: / 34行目: @@
 === SARSA ===
 SARSA（[[:en:state–action–reward–state–action|state–action–reward–state–action]]）は方策オン型のTD学習。
+:<math>Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t} + \gamma Q(s_{t+1}, a_{t+1})-Q(s_t,a_t)]</math>
 === Q学習 ===