「マルコフ決定過程」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
編集の要約なし
編集の要約なし
1行目: 1行目:
'''マルコフ決定過程''' '''(Markov Decision Process; MDP)''' は結果が部分的にランダムかつ部分的に意思決定者による制御をおこなう状況でえられる場合における意思決定のモデリングにおける数学的枠組みを与える.MDP は[[動的計画法]]や[[強化学習]]などを用いて解かれる幅広い最適化問題の研究において有益である.MDP は少なくとも1950年代には知られていた (Bellman 1957)が,研究の中核は1960年に出版された ロナルド-A-ハワード" の "Dynamic Programming and Markov Processes" に起因する<span class="mw-ref" id="cite_ref-FOOTNOTEHoward1960_1-0" rel="dc:references">[[#cite_note-FOOTNOTEHoward1960-1|<span class="mw-reflink-text"><nowiki>[1]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTEHoward1960_1-0" rel="dc:references"></span>。MDP は[[ロボット工学|ロボット]]工学,制御工学(automated control)、 [[経済学]]、 [[製造業]]を含む幅広い分野で用いられている。
'''マルコフ決定過程''' '''(Markov Decision Process; MDP)''' は結果が部分的にランダムかつ部分的に意思決定者による制御をおこなう状況でえられる場合における意思決定のモデリングにおける数学的枠組みを与える.MDP は[[動的計画法]]や[[強化学習]]などを用いて解かれる幅広い最適化問題の研究において有益である.MDP は少なくとも1950年代には知られていた (Bellman 1957)が,研究の中核は1960年に出版された ロナルド-A-ハワード" の "Dynamic Programming and Markov Processes" に起因する<span class="mw-ref" id="cite_ref-FOOTNOTEHoward1960_1-0" rel="dc:references">[[#cite_note-FOOTNOTEHoward1960-1|<span class="mw-reflink-text"><nowiki>[1]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTEHoward1960_1-0" rel="dc:references"></span>。MDP は[[ロボット工学|ロボット]]工学,制御工学(automated control)、 [[経済学]]、 [[製造業]]を含む幅広い分野で用いられている。


== 概要 ==
より正確には、マルコフ決定過程は離散時間の確率制御過程 (discrete time stochastic control process) である。各時刻において過程 (process) は 状態 <math display="inline">s</math> を取り,意思決定者は状態 <math display="inline">s</math> において利用可能な行動 <math display="inline">a</math> を任意に選択する。過程は次の時刻においてランダムに新しい状態 <math display="inline">s'</math> に移動し,意思決定者に対応する報酬 <math display="inline">R_a(s,s')</math> を与える。
より正確には、マルコフ決定過程は離散時間の確率制御過程 (discrete time stochastic control process) である。各時刻において過程 (process) は 状態 <math display="inline">s</math> を取り,意思決定者は状態 <math display="inline">s</math> において利用可能な行動 <math display="inline">a</math> を任意に選択する。過程は次の時刻においてランダムに新しい状態 <math display="inline">s'</math> に移動し,意思決定者に対応する報酬 <math display="inline">R_a(s,s')</math> を与える。


9行目: 10行目:
== 定義 ==
== 定義 ==
[[ファイル:Markov_Decision_Process_example.png|右|サムネイル|400x400ピクセル|3つの状態と2つの行動をもつ簡単な MDP の例]]
[[ファイル:Markov_Decision_Process_example.png|右|サムネイル|400x400ピクセル|3つの状態と2つの行動をもつ簡単な MDP の例]]
マルコフ決定過程は5つの要素の組 <math>(S, A, P_{\cdot}(\cdot,\cdot), R_{\cdot}(\cdot,\cdot), \gamma)</math>で表される.ここで
マルコフ決定過程は4つの要素の組 <math>(S, A, P_{\cdot}(\cdot,\cdot), R_{\cdot}(\cdot,\cdot))</math>で表される.ここで各要素はそれぞれ次を意味する.
* <math>S</math> 状態の有限集合
* <math>S</math> : 状態の有限集合
* <math>A</math> 行動(action)の有限集合 (状態 <math>s</math> から利用可能なことを明記すため <math>A_s</math> も表記する),
* <math>A</math> : 行動 (action) の有限集合状態 <math>s</math> で取ることのでき行動の集合は <math>A_s \subset A</math>と書く)
* <math>P_a(s,s') = \Pr(s_{t+1}=s' \mid s_t = s, a_t=a)</math> 時刻 t に状態 s ,行動 a を取るときの t+1 における状態 s' の確率
* <math>P_a(s,s') = \Pr(s_{t+1}=s' \mid s_t = s, a_t=a)</math> : 時刻 <math>t
</math> の行動を <math>a
* <math>R_a(s,s')</math> は状態 s から s' に遷移する際に得られる報酬 (immediate reward) ,または期待報酬 (expected immediate reward)
</math> としたときの状態 <math>s
* <math>\gamma \in [0,1]</math> は割引因子(discount factor) であり,現在の報酬と未来の報酬との間における重要度 (importance) の差を表す
</math> から <math>s'
(注意) マルコフ決定過程の理論では S および A の有限性を仮定しないが、以下に説明する基本的なアルゴリズムでは有限と仮定する.
</math> への状態遷移確率
* <math>R_a(s,s')</math> : 状態 s から s' に遷移する際に得られる即時報酬 (immediate reward) ,またはその期待値 (expected immediate reward)
※ 一般的なマルコフ決定過程の理論では <math>S
</math> および <math>A
</math> の有限性を仮定しないが、本記事での議論では基本的に有限性を仮定することに注意されたい.


== 問題設定 ==
== 問題設定 ==
MDP における基本的な問題設定は,意思決定者の現在の状態が <math>s
MDP の基本的な問題は意思決定者の”政策 (policy)"を探すことである.それは関数 <math>\pi</math>であり,状態が s のとき意思決定者がとる行動を特別に <math>\pi(s)</math> と表す.このようにマルコフ決定過程と政策を組み合わせると,各状態ごとに行動は固定され,結果として得られる組み合わせ(combination) はマルコフ連鎖として振る舞うことに注意されたい.
</math> のときに取る行動を関数 <math>\pi(s)</math> として表記する.


このようにマルコフ決定過程と政策を組み合わせると,各状態ごとに行動は固定され,結果として得られる組み合わせ(combination) はマルコフ連鎖として振る舞うことに注意されたい.
目標はランダムな報酬 (random reword) の累積関数(典型的には次のような無限区間に渡る割引和の期待値)を最大化する政策 <math>\pi</math> を選択することである.


目標はランダムな報酬 (random reword) の累積関数(典型的には無限区間に渡る割引和の期待値)を最大化する政策 <math>\pi</math> を選択することである.<math display="block">\max_\pi \quad \mathbb{E} \bigg[ \sum_{t=0}^{\infty} \gamma^t R_{\pi(s_t)}(s_t, s_{t+1}) \bigg]</math>
<math>\sum_{t=0}^{\infty} \gamma^t R_{a_t}(s_t, s_{t+1})</math> &nbsp;&nbsp;&nbsp;&#x28;<math>a_t = \pi(s_t)</math>を選択した場合)


ここで <math>\gamma \in [0,1)</math> は割引因子(discount factor) と呼ばれるは 値であり,現在の報酬と未来の報酬との間における重要度 (importance) の差を表す.
ここで <math>\gamma</math> は割引因子であり,<math>0 \leq \gamma < 1</math> を満たす(例えば割引率を <math>r</math> とした場合<math>\gamma = 1 / (1 + r)</math> )。<math>\gamma</math> は通常 1 に近い値を取る。


=== マルコフ性 ===
マルコフ性により、この特定の問題における最適政策(optimal policy) は <math>s</math> のみの関数として書くことができる。
[[マルコフ性]]により、この特定の問題における最適政策 (optimal policy) は状態 <math>s</math> のみの関数として書くことができる.


== アルゴリズム ==
== アルゴリズム ==
61行目: 69行目:


== 拡張と一般化 ==
== 拡張と一般化 ==
マルコフ決定過程はプレイヤーが1人の 確率ゲーム である。
=== 部分観測マルコフ決定過程 ===
上の解は,政策関数の値 <math>\pi(s)

</math> を計算する際に現在の状態 <math>s
=== 部分観測性 ===
上の解は行動が pi(s)計算可能である,すなわち状態 s が行動を選択する際に既知であることを仮定している.この仮定が成り立たない場合(訳注:状態観測に不確実性が伴う場合),問題は部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) と呼ばれる.
</math> が既知であることを仮定している.状態観測に不確実性が伴う場合など,この仮定が成り立たない場合の一般化として,'''部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP)''' が知らている.


この領域の主な進展は Burnetas と Katehakis の "Optimal adaptive policies for Markov decision processes" により得られた{{Sfn|Burnetas|Katehakis|1997}} .この文献では,有限ホライズンにわたる報酬和の期待値に対し (uniformly maximum convergence rate properties)を持つ適応的な政策のクラスが有限状態・有限入力の仮定かつ遷移測の規約性 (irreducibility) の元で構築された.These policies prescribe that the choice of actions, at each state and time period, should be based on indices that are inflations of the right-hand side of the estimated average reward optimality equations
この領域の主な進展は Burnetas と Katehakis の "Optimal adaptive policies for Markov decision processes" により得られた{{Sfn|Burnetas|Katehakis|1997}} .この文献では,有限ホライズンにわたる報酬和の期待値に対し (uniformly maximum convergence rate properties)を持つ適応的な政策のクラスが有限状態・有限入力の仮定かつ遷移測の規約性 (irreducibility) の元で構築された.These policies prescribe that the choice of actions, at each state and time period, should be based on indices that are inflations of the right-hand side of the estimated average reward optimality equations
71行目: 79行目:
確率や報酬が未知の場合,問題は強化学習の一種となる <span>(</span>[[Markov decision process#CITEREFSuttonBarto1998|Sutton &#x26; Barto 1998]]<span>)</span>.
確率や報酬が未知の場合,問題は強化学習の一種となる <span>(</span>[[Markov decision process#CITEREFSuttonBarto1998|Sutton &#x26; Barto 1998]]<span>)</span>.


この目的のためには,行動 a を取った後ずっと最適な行動(あるいは各時刻における可能な任意の行動)を継続した場合に対応する,より進んだ関数を定義するのが有効である.<math display="block">Q(s,a) = \mathbb{E}_\pi \bigg[ \sum_{k=0}^{\infty} \gamma^k R_{a_{t+k}}(s_{t+k},s_{t+k+1}) \bigg| s_t = s, a_t = a\bigg]

</math>この関数は行動価値関数と呼ばれる.<math display="block">Q(s,a) = \sum_{s'} P_a(s,s') \Big( R_a(s,s') + \gamma V(s') \Big)</math>この関数もまた未知であるが,学習の間に用いられる経験 (experience) は(結果 s' を伴う)ペア (s, a) に基づく(すなわち,「私は状態 s にいて a を試行し, s' が起こった).すなわち,意思決定者は Q の配列を持ち,その値を直接更新するために経験を用いる.これは Q 学習として知られている. 
この目的のためには,行動 a を取った後ずっと最適な行動(あるいは各時刻における可能な任意の行動)を継続した場合に対応する,より進んだ関数を定義するのが有効である. 
: <math />
この関数もまた未知であるが,学習の間に用いられる経験 (experience) は(結果 s' を伴う)ペア (s, a) に基づく(すなわち,「私は状態 s にいて a を試行し, s' が起こった).すなわち,意思決定者は Q の配列を持ち,その値を直接更新するために経験を用いる.これは Q 学習として知られている.


強化学習は,遷移確率の仕様が明示的に与えれていないマルコフ決定過程を解くことができる(価値反復法/政策反復法では遷移確率の値が必要となる).強化学習では,遷移確率の明示的な仕様の代わりに,遷移確率は一様乱数の初期状態から何度も試行されるシミュレータを介してアクセスされる.強化学習は膨大な数の状態への問題を扱うため関数近似と組み合わせることがある.
強化学習は,遷移確率の仕様が明示的に与えれていないマルコフ決定過程を解くことができる(価値反復法/政策反復法では遷移確率の値が必要となる).強化学習では,遷移確率の明示的な仕様の代わりに,遷移確率は一様乱数の初期状態から何度も試行されるシミュレータを介してアクセスされる.強化学習は膨大な数の状態への問題を扱うため関数近似と組み合わせることがある.
89行目: 95行目:
* 各時刻における出力を与える関数 ''G'': Φ → α<br>
* 各時刻における出力を与える関数 ''G'': Φ → α<br>
このようなオートマトンの状態は”dicrete-state discrete-parameter Markov process" の状態と対応する<span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1974p.325_left_7-0" rel="dc:references">[[#cite_note-FOOTNOTENarendraThathachar1974p.325_left-7|<span class="mw-reflink-text"><nowiki>[7]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1974p.325_left_7-0" rel="dc:references"></span> .各時刻 ''t''=0,1,2,3,... においてオートマトンは環境から入力を読み込み,A により P(t) を P(t+1) に更新する.継続する状態は P(t+1) に基づき選択され,対応する行動が出力される.同様に,環境は(オートマトンの)行動を読み取り,次の入力をオートマトンに送信する<span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1989_6-1" rel="dc:references">[[#cite_note-FOOTNOTENarendraThathachar1989-6|<span class="mw-reflink-text"><nowiki>[6]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1989_6-1" rel="dc:references"></span>
このようなオートマトンの状態は”dicrete-state discrete-parameter Markov process" の状態と対応する<span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1974p.325_left_7-0" rel="dc:references">[[#cite_note-FOOTNOTENarendraThathachar1974p.325_left-7|<span class="mw-reflink-text"><nowiki>[7]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1974p.325_left_7-0" rel="dc:references"></span> .各時刻 ''t''=0,1,2,3,... においてオートマトンは環境から入力を読み込み,A により P(t) を P(t+1) に更新する.継続する状態は P(t+1) に基づき選択され,対応する行動が出力される.同様に,環境は(オートマトンの)行動を読み取り,次の入力をオートマトンに送信する<span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1989_6-1" rel="dc:references">[[#cite_note-FOOTNOTENarendraThathachar1989-6|<span class="mw-reflink-text"><nowiki>[6]</nowiki></span>]]</span><span class="mw-ref" id="cite_ref-FOOTNOTENarendraThathachar1989_6-1" rel="dc:references"></span>

=== 圏論的な解釈 ===
報酬を除き,マルコフ決定過程 <math>(S,A,P)</math> は圏論の観点で理解することができる.すなわち,<math>\mathcal{A}</math> を集合 A を生成する 自由モノイド (free monoid) ,'''Dist''' を Giry モナドの [[クライスリ圏|Kleisli]] 圏と表すとき,関手 <math>\mathcal{A}\to\mathbf{Dist}</math> は状態の集合 S と 確率関数 P の両方を変換 (encode) する.

この方法では,マルコフ決定過程はモノイド(1つの対象の圏)から一般化される.そのうち一つの結果 <math>(\mathcal{C}, F:\mathcal{C}\to \mathbf{Dist})</math> は 文脈依存マルコフ決定過程 (''context-dependent Markov decision process) と呼ばれる.''これは $C$ のある対象から別の対象へ移動することは可能な行動の集合および(遷移)可能な状態の集合を変化させるためである.


=== Fuzzy Markov decision processes (FDMPs) ===
=== Fuzzy Markov decision processes (FDMPs) ===
104行目: 105行目:
連続時間マルコフ決定過程を議論するため,次の2つの表記を導入する:
連続時間マルコフ決定過程を議論するため,次の2つの表記を導入する:


状態空間・行動空間 (action space) が有限の場合,
状態空間・行動空間 (action space) が有限の場合:
* <math>\mathcal{S}</math>: 状態空間;
* <math>\mathcal{S}</math>: 状態空間
* <math>\mathcal{A}</math>: 行動空間;
* <math>\mathcal{A}</math>: 行動空間
* <math>q(i|j,a)</math>: <math>\mathcal{S}\times \mathcal{A} \rightarrow \triangle \mathcal{S}</math>, 遷移率関数 (transition rate function);
* <math>q(i|j,a)</math>: <math>\mathcal{S}\times \mathcal{A} \rightarrow \triangle \mathcal{S}</math> : transition rate function
* <math>R(i,a)</math>: <math>\mathcal{S}\times \mathcal{A} \rightarrow \mathbb{R}</math>, 報酬関数
* <math>R(i,a)</math>: <math>\mathcal{S}\times \mathcal{A} \rightarrow \mathbb{R}</math>, 報酬関数
状態空間・行動空間 (action space) が連続の場合,
状態空間・行動空間 (action space) が連続の場合:
* <math>\mathcal{X}</math>: 状態空間;
* <math>\mathcal{X}</math>: 状態空間
* <math>\mathcal{U}</math>: 可能な制御(入力)の空間;
* <math>\mathcal{U}</math>: 可能な制御(入力)の空間
* <math>f(x,u)</math>: <math>\mathcal{X}\times \mathcal{U} \rightarrow \triangle \mathcal{X}</math>, 遷移率関数;
* <math>f(x,u)</math>: <math>\mathcal{X}\times \mathcal{U} \rightarrow \triangle \mathcal{X}</math> : transition rate function
* <math>r(x,u)</math>: <math>\mathcal{X}\times \mathcal{U} \rightarrow \mathbb{R}</math>, <math>r(x(t),u(t))dt=dR(x(t),u(t))</math> <math>R(x,u)</math> は前節で議論し報酬関数
* <math>r(x,u)</math>: <math>\mathcal{X}\times \mathcal{U} \rightarrow \mathbb{R}</math> : reward rate function.<math>R(x,u)</math> を前節で議論した報酬関数としたとき <math>r(x(t),u(t))dt=dR(x(t),u(t))</math> を満


=== 問題設定 ===
=== 問題設定 ===
離散時間マルコフ決定過程と同様,連続時間マルコフ決定過程では次式で与えられる最適期待積分利得 (optimal expected integrated reward) を与える最適政策または制御を求めることが目的となる.
離散時間マルコフ決定過程と同様,連続時間マルコフ決定過程では次式で与えられる最適期待積分利得 (optimal expected integrated reward) を与える最適政策 (optimal policy) または最適制御 (optimal control) を求めることが目的となる.<math display="block">\max_u \ \mathbb{E} \left[\int_0^{\infty}\gamma^t r(x(t),u(t))) \,dt \ \bigg|\ x_0 \right]</math>ただし,<math>0\leq\gamma< 1</math> である.
: <math>\max \quad \mathbb{E}_u[\int_0^{\infty}\gamma^t r(x(t),u(t)))dt|x_0]</math>
<math>0\leq\gamma< 1</math>

=== 線形計画法による定式化 ===
=== 線形計画法による定式化 ===
状態と行動が有限の場合,最適政策を求めるのに線形計画法を用いることが出来る(これは初期のアプローチを応用したものである).ここではエルゴード性を満たすモデル (ergodic model) のみを考える.これは連続時間の MDP が定常な政策の下でエルゴード性を満たす連続時間マルコフ連鎖となることを意味する.この仮定の下では,現在の状態からどの時刻における意思決定を行えるにもかかわらず,意思決定者は1つより多くの行動をとることでより多くの利益を得ることが出来ない.彼にとっては,システムが現在の状態からほかの状態に遷移する時刻における行動をとるのがより望ましい.
状態と行動が有限の場合,最適政策を求めるのに線形計画法を用いることが出来る(これは初期のアプローチを応用したものである).ここではエルゴード性を満たすモデル (ergodic model) のみを考える.これは連続時間の MDP が定常な政策の下でエルゴード性を満たす連続時間マルコフ連鎖となることを意味する.この仮定の下では,現在の状態からどの時刻における意思決定を行えるにもかかわらず,意思決定者は1つより多くの行動をとることでより多くの利益を得ることが出来ない.彼にとっては,システムが現在の状態からほかの状態に遷移する場合の行動をとるのがより望ましい.



いくつかの条件のもと(詳細は ''[http://www.springer.com/mathematics/applications/book/978-3-642-02546-4 Continuous-Time Markov Decision Processes] の補題3.14を確認されたい)'',価値関数 V* が状態 i と独立な場合,次の不等式を得る:
いくつかの条件のもと(詳細は ''[http://www.springer.com/mathematics/applications/book/978-3-642-02546-4 Continuous-Time Markov Decision Processes] の補題3.14を確認されたい)'',最適な価値関数 <math>V^*
</math> が状態 <math>i
</math> と独立な場合,次の不等式を得る:<math display="block">g \geq R(i,a) + \sum_{j\in S} q(j\mid i,a) h(j) \quad \forall i \in S\ \text{and}\ \forall a \in A(i)</math>もし関数 h が存在すれば, <math>\bar V^*</math> は上式を満たす <math>g</math> の最小値となる.<math>\bar V^*</math> を求めるため,次に示す線形計画モデルを用いることができる:
: <math />
* 主問題 (P-LP)<math display="block">
もし関数 h が存在すれば, <math>\bar V^*</math> は上式を満たす <math>g</math> の最小値となる. 
<math>\bar V^*</math>
* 主問題 (P-LP)
: <math>
\begin{align}
\begin{align}
\text{Minimize}\quad &g\\
\text{Minimize}\quad &g\\
136行目: 131行目:
\end{align}
\end{align}
</math>
</math>
* 双対問題 (D-LP)
* 双対問題 (D-LP)<math display="block">\begin{align}
\text{Maximize}\quad& \sum_{i\in S} \sum_{a \in A(i)} R(i,a) y(i, a) \\
: <math />
\text{s.t}\quad
<math>y(i,a)</math> が非負かつ D-LP のすべての制約を満たすとき,y(i,a) は D-LP の実行可能解である.D-LP の実行可能解 <math>y^*(i,a)</math> は任意の y(i,a) に対し次式を満たすとき最適解と呼ばれる:
& \sum_{i\in S} \sum_{a \in A(i)} q(j\mid i,a) y(i,a) = 0 \quad \forall j \in S, \\
: <math />
& \sum_{i \in S} \sum_{a \in A(i)} y(i,a) = 1, \\
最適解 <math>y^*(i,a)</math>
& y(i,a) \geq 0 \qquad \forall a \in A(i) \text{ and } \forall i \in S
\end{align}</math>


=== Hamilton-Jacobi-Bellman方程式 ===
=== ハミルトン・ヤコビ・ベルマン方程式 ===


連続時間の MDP において状態と行動が連続な場合,最適基準 (optimal critarion) は [[ハミルトン-ヤコビ-ベルマン方程式|Hamilton-Jacobi-Bellman (HJB)]] 偏微分方程式を解くことによって得られる.HBJ方程式議論するため問題を次のように書き換える必要がある:
連続時間の MDP において状態と行動が連続な場合,最適基準 (optimal critarion) は [[ハミルトン-ヤコビ-ベルマン方程式|ハミルトン・ヤコビ・ベルマン方程式]]を解くことによって得られる.いま,HBJ方程式議論ため問題を次のように書き換える:<math display="block">\begin{align}
: <math>\begin{align} V(x(0),0)=&\text{max}_u\int_0^T r(x(t),u(t))dt+D[x(T)]\\
V(x(0),0) =& \max_u \int_0^T r(x(t),u(t)) dt + D[x(T)] \\
s.t.\quad & \frac{dx(t)}{dt}=f[t,x(t),u(t)]
s.t.\quad & \frac{dx(t)}{dt}=f[t,x(t),u(t)]
\end{align}
\end{align}
</math>ここで,<math>D(\cdot)</math> は終端報酬関数 (terminal reward function), <math>x(t)</math> はシステムの状態ベクトル,<math>u(t)</math> はシステムの制御入力である. <math>f(\cdot, \cdot, \cdot)</math> は状態ベクトルの時間発展を表す.上の問題に関するハミルトン・ヤコビ・ベルマン方程式は次のように表される:<math display="block">\max_u \left\{ r(t,x,u) + \frac{\partial V(t,x)}{\partial x} f(t,x,u) \right\} = 0 </math>この方程式を解くことで,価値関数の最大値 <math>V^*</math> を与える最適制御 (optimal control) <math>u^*(t)
</math>
</math> を求めることが出来る.
<math>D(\cdot)</math> は終端報酬関数 (terminal reward function), <math>x(t)</math> はシステムの状態ベクトル, <math>u(t)</math> は求めるシステムの制御入力である. <math>f(\cdot)</math> は状態ベクトルが時刻とともにどのように変化するかを表す.この問題に対する Hamilton-Jacobi-Bellman 方程式は次のようになる:
: <math>0=\text{max}_u ( r(t,x,u) +\frac{\partial V(t,x)}{\partial x}f(t,x,u)) </math>
この方程式を解くことで,最適な価値 <math>V^*</math>


=== 応用 ===
=== 応用 ===
連続時間マルコフ決定過程は,待ち行列システム (Queueing System),epidemic process, 個体群過程 (population process) などに応用がされている.
連続時間マルコフ決定過程は,待ち行列システム (Queueing System),epidemic process, 個体群過程 (population process) などに応用がされている.

== Alternative notations ==
MDP の用語と記号は完全に定着しておらず,2つの主要な流れが存在する.
1つは経済学などの文脈からの最大化に焦点を当てたものであり,用語として行動,報酬,価値が用いられ,割引因子として \beta あるいは \gamma が用いられる.
もう一つは工学や航空からの最小化に焦点をあてたものであり,用語として制御,コスト,cost-to-goが用いられ,割引因子は \alpha が用いられる.加えて,遷移確率の記号が異なる.
{| class="wikitable"
!本記事
! 代用
! コメント
|-
| 行動 <math>a</math>
|制御 <math>u</math>
|-
|報酬 <math>R</math>
|コスト <math>g</math>
| <math>g</math> は <math>R</math>
|-
|価値 <math>V</math>
| cost-to-go <math>J</math>
| <math>J</math> は <math>V</math>
|-
|政策 <math>\pi</math>
|政策 <math>\mu</math>
|-
|割引因子<math>\ \gamma \ </math>
| 割引因子 <math>\alpha</math>
|-
|<math>P_a(s,s')</math>
|遷移確率 <math>p_{ss'}(a)</math>
|}
加えて,遷移確率はしばしば <math>Pr(s,a,s')</math> <math>Pr(s'|s,a)</math> , <math>p_{s's}(a).</math>


== 制約付きマルコフ決定過程 ==
== 制約付きマルコフ決定過程 ==
207行目: 171行目:
* [[Q学習|Q-learning]]
* [[Q学習|Q-learning]]


== 注記 ==
==References==
{{refbegin}}
<div class="reflist" style=" list-style-type: decimal;">
* {{cite journal|first=R.|last=Bellman|url=http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/56038|title=A Markovian Decision Process|journal=Journal of Mathematics and Mechanics|volume=6|year=1957|ref=harv}}
<references /></div>
* {{cite book|first=R. E.|last=Bellman.|title=Dynamic Programming|publisher=Princeton University Press|location=Princeton, NJ|orig-year=1957|edition=Dover paperback edition|year=2003|ISBN=0-486-42809-5|ref=harv}}
* {{cite book|first=Ronald A.|last=Howard|title=Dynamic Programming and Markov Processes|publisher=The M.I.T. Press|year=1960|url=http://web.mit.edu/dimitrib/www/dpchapter.pdf|ref=harv}}
* {{cite journal|last=Shapley|first=Lloyd|authorlink=Lloyd Shapley|title=Stochastic Games|year=1953|journal=Proceedings of National Academy of Science|volume=39|pages=1095–1100|ref=harv}}
* {{cite book|first=Lodewijk|last=Kallenberg|chapter=Finite state and action MDPs|editor-first1=Eugene A.|editor-last1=Feinberg|editor-first2=Adam|editor-last2=Shwartz|title=Handbook of Markov decision processes: methods and applications|publisher=Springer|year=2002|ISBN=0-7923-7459-2|ref=harv}}
* {{cite book|first=D.|last=Bertsekas|title=Dynamic Programming and Optimal Control|volume=2|publisher=Athena|location=MA|year=1995|ref=harv}}
* {{cite journal|last1=Burnetas|first1=A.N.|first2=M. N.|last2=Katehakis|title=Optimal Adaptive Policies for Markov Decision Processes|journal=Mathematics of Operations Research|volume=22|issue=1|year=1997|doi = 10.1287/moor.22.1.222|pages=222|ref=harv}}
* {{cite book|editor1-first=E.A.|editor1-last=Feinberg|editor2-first=A.|editor2-last=Shwartz|title=Handbook of Markov Decision Processes|publisher=Kluwer|location=Boston, MA|year=2002|ref=harv}}
* {{cite book|first=C.|last=Derman|title=Finite state Markovian decision processes|publisher=Academic Press|year=1970|ref=harv}}
* {{cite book|first=M. L.|last=Puterman.|title=Markov Decision Processes|publisher=Wiley|year=1994|ref=harv}}
* {{cite book|first=H.C.|last=Tijms.|title=A First Course in Stochastic Models|publisher=Wiley|year=2003|ref=harv}}
* {{cite book|last1=Sutton|first1=R. S.|last2=Barto|first2=A. G.|title=Reinforcement Learning: An Introduction|publisher=The MIT Press|location=Cambridge, MA|year=1998|url=http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html|ref=harv}}
* {{cite journal|first=J.A. E. E|last=van Nunen|title=A set of successive approximation methods for discounted Markovian decision problems. Z|journal=Operations Research|volume=20|pages=203-208|year=1976|ref=harv}}
* {{Cite journal|last=Narendra|first=K. S.|authorlink=Kumpati S. Narendra|last2=Thathachar|first2=M. A. L.|date=1974-07-01|title=Learning Automata - A Survey|url=http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5408453|journal=IEEE Transactions on Systems, Man, and Cybernetics|volume=SMC-4|issue=4|pages=323–334|doi=10.1109/TSMC.1974.5408453|issn=0018-9472|ref=harv}}
* {{Cite book|url=https://books.google.com/books?id=hHVQAAAAMAAJ|title=Learning automata: An introduction|last=Narendra|first=Kumpati S.|authorlink=Kumpati S. Narendra|last2=Thathachar|first2=Mandayam A. L.|year=1989|publisher=Prentice Hall|isbn=9780134855585|language=en|ref=harv}}
* {{cite book|first=S. P.|last=Meyn|url=https://netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html|archive-url=https://web.archive.org/web/20100619011046/https://netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html|archive-date=19 Jun 2010|title=Control Techniques for Complex Networks|publisher=Cambridge University Press|year=2007|ISBN=978-0-521-88441-9|ref=harv}} Appendix contains abridged {{cite web|url=https://netfiles.uiuc.edu/meyn/www/spm_files/book.html|archive-url=https://web.archive.org/web/20121218173202/https://netfiles.uiuc.edu/meyn/www/spm_files/book.html|archive-date=18 Dec 2012|title=Meyn & Tweedie}}
* {{cite book|first=S. M.|last=Ross|year=1983|title=Introduction to stochastic dynamic programming|publisher=Academic press|ref=harv}}
* {{cite book|first1=X.|last1=Guo|first2=O.|last2=Hernández-Lerma|url=http://www.springer.com/mathematics/applications/book/978-3-642-02546-4|title=Continuous-Time Markov Decision Processes|publisher=Springer|year=2009|ref=harv}}
* {{cite journal|first1=M. L.|last1=Puterman|last2=Shin|first2=M. C.|title=Modified Policy Iteration Algorithms for Discounted Markov Decision Problems|journal=Management Science|volume=24|year=1978|ref=harv}}
* {{cite book|last=Altman|first=Eitan|title=Constrained Markov decision processes|volume=7|publisher=CRC Press|year=1999|ref=harv}}
* {{cite conference|last1=Feyzabadi|first1=S.|last2=Carpin|first2=S.|title=Risk-aware path planning using hierarchical constrained Markov Decision Processes|book-title=Automation Science and Engineering (CASE)|year=2014|conference=IEEE International Conference|pages=297,303|date=18-22 Aug 2014|ref=harv}}
{{refend}}


==External links==
== 参考文献 ==
* [http://www7.inra.fr/mia/T/MDPtoolbox/ MDP Toolbox for MATLAB, GNU Octave, Scilab and R] The Markov Decision Processes (MDP) Toolbox.
* [http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.html MDP Toolbox for Matlab] - An excellent tutorial and Matlab toolbox for working with MDPs.
* [https://pypi.python.org/pypi/pymdptoolbox MDP Toolbox for Python] A package for solving MDPs
* [http://www.cs.ualberta.ca/~sutton/book/ebook Reinforcement Learning] An Introduction by Richard S. Sutton and Andrew G. Barto
* [http://www.cs.uwaterloo.ca/~jhoey/research/spudd/index.php SPUDD] A structured MDP solver for download by Jesse Hoey
* [http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps.gz Learning to Solve Markovian Decision Processes] by [http://www.eecs.umich.edu/~baveja/ Satinder P. Singh]
* [http://www.jstor.org/stable/3690147 Optimal Adaptive Policies for Markov Decision Processes] by Burnetas and Katehakis (1997).


[[Category:Optimal decisions]]
== 外部リンク ==
[[Category:Dynamic programming]]
[[Category:Markov processes]]
[[Category:Stochastic control]]

2016年10月2日 (日) 09:23時点における版

マルコフ決定過程 (Markov Decision Process; MDP) は結果が部分的にランダムかつ部分的に意思決定者による制御をおこなう状況でえられる場合における意思決定のモデリングにおける数学的枠組みを与える.MDP は動的計画法強化学習などを用いて解かれる幅広い最適化問題の研究において有益である.MDP は少なくとも1950年代には知られていた (Bellman 1957)が,研究の中核は1960年に出版された ロナルド-A-ハワード" の "Dynamic Programming and Markov Processes" に起因する[1]。MDP はロボット工学,制御工学(automated control)、 経済学製造業を含む幅広い分野で用いられている。

概要

より正確には、マルコフ決定過程は離散時間の確率制御過程 (discrete time stochastic control process) である。各時刻において過程 (process) は 状態 を取り,意思決定者は状態 において利用可能な行動 を任意に選択する。過程は次の時刻においてランダムに新しい状態 に移動し,意思決定者に対応する報酬 を与える。

過程が新しい状態 に遷移する確率は選択された行動の影響を受ける.具体的には,状態遷移関数  で与えられる.すなわち,次の状態 は現在の状態 と行動 に依存するが, が与えられたもとで過去の状態および行動と条件付き独立となる.言い換えると,マルコフ決定過程の状態遷移はマルコフ性を満たす.

マルコフ決定過程はマルコフ連鎖の拡張である.違いは(選択可能な)行動,および(モチベーションを与える)報酬を追加したことである.逆に言えば,各状態に対し("wait"など)一意の行動が存在し,その際に得られる報酬が同じであれば,マルコフ決定過程はマルコフ連鎖に置き換えられる。

定義

3つの状態と2つの行動をもつ簡単な MDP の例

マルコフ決定過程は4つの要素の組 で表される.ここで各要素はそれぞれ次を意味する.

  •  : 状態の有限集合
  •  : 行動 (action) の有限集合(状態 で取ることのできる行動の集合は と書く)
  •  : 時刻 の行動を としたときの状態 から への状態遷移確率
  •  : 状態 s から s' に遷移する際に得られる即時報酬 (immediate reward) ,またはその期待値 (expected immediate reward)

※ 一般的なマルコフ決定過程の理論では および の有限性を仮定しないが、本記事での議論では基本的に有限性を仮定することに注意されたい.

問題設定

MDP における基本的な問題設定は,意思決定者の現在の状態が のときに取る行動を関数 として表記する.

このようにマルコフ決定過程と政策を組み合わせると,各状態ごとに行動は固定され,結果として得られる組み合わせ(combination) はマルコフ連鎖として振る舞うことに注意されたい.

目標はランダムな報酬 (random reword) の累積関数(典型的には無限区間に渡る割引和の期待値)を最大化する政策 を選択することである.

ここで  は割引因子(discount factor) と呼ばれるは 値であり,現在の報酬と未来の報酬との間における重要度 (importance) の差を表す.

マルコフ性

マルコフ性により、この特定の問題における最適政策 (optimal policy) は状態  のみの関数として書くことができる.

アルゴリズム

MDPs は 線形計画法 または 動的計画法で解くことができる。ここでは後者によるアプローチを示す。

状態遷移関数 および 報酬関数 (reward function)  は既知であると仮定し,割引された報酬の期待値を最大化する政策を求めることを考える.

最適政策 (optimal policy) を計算するためのこのような標準的なアルゴリズムの族 (standard family of algorithms) では,状態によって指標づけられた2つの値(価値 ,政策 )の配列を格納するための記憶領域が必要となる.アルゴリズムが終了すると, には解, には解である行動に従うことで得られる報酬の割引和(の平均値)が格納される.

このアルゴリズムは、以下に示す二つのステップを持ち,すべての状態が変化しなくなるまで繰り返し計算する.各ステップにおける計算式は次のように定義される:

これらの(計算量の)オーダーは使用するアルゴリズムの種類に依存する.状態がどの状態においても除外されることがない限り, アルゴリズムは最終的に正確な解に到達する.

価値反復法

価値反復法 (Bellman 1957)は,backward inductionとも呼ばれ,価値関数 を直接使用する代わりに,必要な場合は  から計算する。 ロイド-Shapley による1953年の確率ゲーム#cite_note-FOOTNOTEShapley1953-2 に関する論文には MDP における価値反復法の特殊な場合が含まれるが,このことが認知されたのは後になってからである[3]

政策の計算式 を価値関数  の計算式に代入することで,次の結合されたステップが得られる:

ここで  は繰り返しのインデックスである。価値反復法は  に  を価値観数の推定値として開始する。 そしてすべての状態  に対し  の値が収束(左辺値と右辺値が一致)するまで繰り返し計算により を求める (これがこの問題における "ベルマン方程式"である)。

政策反復法

政策反復法 (Howard, 1960)では、一つ目のステップが1度評価され、二つのステップを収束するまで繰り返す。その後一つ目のステップを再度評価し,再び同じことを繰り返す。二つ目のステップは,収束するまで繰り返し計算する代わりにしばしば線形方程式として解を求める.

この手法は,明確な停止条件が存在することが利点に持つ.一つ目のステップをすべての状態に適用したとき の配列が変化しなければアルゴリズムは完了する.

修正政策反復法

修正政策反復法 (van Nunen 1976; Puterman & Shin 1978) では,一つ目のステップを評価し,その後二つ目のステップの計算を数回繰り返す.その後,一つ目のステップを再び一回評価する.

優先順序付け (Prioritized sweeping)

In this variant, the steps are preferentially applied to states which are in some way important - whether based on the algorithm (there were large changes in V or \pi around those states recently) or based on use (those states are near the starting state, or otherwise of interest to the person or program using the algorithm).  

拡張と一般化

部分観測マルコフ決定過程

上の解は,政策関数の値 を計算する際に現在の状態 が既知であることを仮定している.状態観測に不確実性が伴う場合など,この仮定が成り立たない場合の一般化として,部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が知られている.

この領域の主な進展は Burnetas と Katehakis の "Optimal adaptive policies for Markov decision processes" により得られた[1] .この文献では,有限ホライズンにわたる報酬和の期待値に対し (uniformly maximum convergence rate properties)を持つ適応的な政策のクラスが有限状態・有限入力の仮定かつ遷移測の規約性 (irreducibility) の元で構築された.These policies prescribe that the choice of actions, at each state and time period, should be based on indices that are inflations of the right-hand side of the estimated average reward optimality equations

強化学習

確率や報酬が未知の場合,問題は強化学習の一種となる (Sutton & Barto 1998).

この目的のためには,行動 a を取った後ずっと最適な行動(あるいは各時刻における可能な任意の行動)を継続した場合に対応する,より進んだ関数を定義するのが有効である.

この関数は行動価値関数と呼ばれる.
この関数もまた未知であるが,学習の間に用いられる経験 (experience) は(結果 s' を伴う)ペア (s, a) に基づく(すなわち,「私は状態 s にいて a を試行し, s' が起こった).すなわち,意思決定者は Q の配列を持ち,その値を直接更新するために経験を用いる.これは Q 学習として知られている. 

強化学習は,遷移確率の仕様が明示的に与えれていないマルコフ決定過程を解くことができる(価値反復法/政策反復法では遷移確率の値が必要となる).強化学習では,遷移確率の明示的な仕様の代わりに,遷移確率は一様乱数の初期状態から何度も試行されるシミュレータを介してアクセスされる.強化学習は膨大な数の状態への問題を扱うため関数近似と組み合わせることがある.

学習オートマトン

機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる.これは環境が確率的な挙動を示す場合における強化学習の一つでもある.学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar により調査された(そこでは有限状態オートマトンと明示的に記載されている[5]).強化学習と同様,学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる.Q学習の違いは,Q値を省略し,学習の結果を探すために行動の確率を直接求めることである.学習オートマトンは収束性が厳密に証明されている学習方法である[6]

学習オートマトンの理論では,次のように構成される 確率オートマトン (Stochastic Automaton) が用いられる:

  • 可能な入力 (possible inputs) の集合 x,
  • 可能な内部状態 (possible internal states) の集合 Φ = { Φ1, ..., Φs } ,
  • 可能な出力 (possible outputs) または行動の集合 α = { α1, ..., αr } , ただし rs,
  • 初期状態確率ベクトル p(0) = ≪ p1(0), ..., ps(0) ≫,
  • 各時刻 t における p(t), 現在の入力,および現在の状態 から p(t+1) を求める計算可能関数 (computable function) A,
  • 各時刻における出力を与える関数 G: Φ → α

このようなオートマトンの状態は”dicrete-state discrete-parameter Markov process" の状態と対応する[7] .各時刻 t=0,1,2,3,... においてオートマトンは環境から入力を読み込み,A により P(t) を P(t+1) に更新する.継続する状態は P(t+1) に基づき選択され,対応する行動が出力される.同様に,環境は(オートマトンの)行動を読み取り,次の入力をオートマトンに送信する[6]

Fuzzy Markov decision processes (FDMPs)

MDP では,最適政策は未来の報酬を最大化する政策である.したがって,最適政策は行動の有限集合に属するいくつかの行動で構成される.FDMP では,まず,価値観数を通常の(すなわち行動の有限集合の)MDPとして計算する.その後,政策はファジー推論システム (fuzzy inference system) により展開される.言い換えると,価値関数はファジー管理システムの入力として活用され,政策はファジー推論システムの出力である.

連続時間マルコフ決定過程

離散時間マルコフ決定過程では,意思決定は離散的な時間間隔で行われる.一方,連続時間マルコフ決定過程では,意思決定は意思決定者の選ぶ任意の時刻に行われる.離散時間マルコフ決定過程と比較し,連続時間マルコフ決定過程は連続的なダイナミクスを持つシステム,すなわちシステムのダイナミクスが変微分方程式で定義される場合の意思決定過程を議論するのにより適している.

定義

連続時間マルコフ決定過程を議論するため,次の2つの表記を導入する:

状態空間・行動空間 (action space) が有限の場合:

  • : 状態空間
  • : 行動空間
  • :  : transition rate function
  • : , 報酬関数

状態空間・行動空間 (action space) が連続の場合:

  • : 状態空間
  • : 可能な制御(入力)の空間
  • :  : transition rate function
  • :  : reward rate function. を前節で議論した報酬関数としたとき  を満たす

問題設定

離散時間マルコフ決定過程と同様,連続時間マルコフ決定過程では次式で与えられる最適期待積分利得 (optimal expected integrated reward) を与える最適政策 (optimal policy) または最適制御 (optimal control) を求めることが目的となる.

ただし, である.

線形計画法による定式化

状態と行動が有限の場合,最適政策を求めるのに線形計画法を用いることが出来る(これは初期のアプローチを応用したものである).ここではエルゴード性を満たすモデル (ergodic model) のみを考える.これは連続時間の MDP が定常な政策の下でエルゴード性を満たす連続時間マルコフ連鎖となることを意味する.この仮定の下では,現在の状態からどの時刻における意思決定を行えるにもかかわらず,意思決定者は1つより多くの行動をとることでより多くの利益を得ることが出来ない.彼にとっては,システムが現在の状態からほかの状態に遷移する場合の行動をとるのがより望ましい.

いくつかの条件のもと(詳細は Continuous-Time Markov Decision Processes の補題3.14を確認されたい),最適な価値関数 が状態 と独立な場合,次の不等式を得る:

もし関数 h が存在すれば,  は上式を満たす  の最小値となる. を求めるため,次に示す線形計画モデルを用いることができる:

  • 主問題 (P-LP)
  • 双対問題 (D-LP)

ハミルトン・ヤコビ・ベルマン方程式

連続時間の MDP において状態と行動が連続な場合,最適基準 (optimal critarion) は ハミルトン・ヤコビ・ベルマン方程式を解くことによって得られる.いま,HBJ方程式の議論のため問題を次のように書き換える:

ここで, は終端報酬関数 (terminal reward function), はシステムの状態ベクトル, はシステムの制御入力である.  は状態ベクトルの時間発展を表す.上の問題に関するハミルトン・ヤコビ・ベルマン方程式は次のように表される:
この方程式を解くことで,価値関数の最大値  を与える最適制御 (optimal control) を求めることが出来る.

応用

連続時間マルコフ決定過程は,待ち行列システム (Queueing System),epidemic process, 個体群過程 (population process) などに応用がされている.

制約付きマルコフ決定過程

制約付きマルコフ決定過程 (Constrained Markov Decision Processes; CMDPs) はマルコフ決定過程の拡張である.MDPs と CMDPs には3つの基本的な違いがある:[9]

  • ある行動をほかのものの代わりに適用した後で(複数の)コストが発生する
  • CMDP は線形計画法のみで解くことが出来る(動的計画法を用いることはできない)
  • 終端時刻における政策が初期状態に依存する

CMDP の応用例は数多く存在し,最近ではロボット工学におけるモーションプランニングに用いられている[10]

参照

References

  • Bellman, R. (1957). “A Markovian Decision Process”. Journal of Mathematics and Mechanics 6. http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/56038. 
  • Bellman., R. E. (2003). Dynamic Programming (Dover paperback edition ed.). Princeton, NJ: Princeton University Press. ISBN 0-486-42809-5 
  • Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press. http://web.mit.edu/dimitrib/www/dpchapter.pdf 
  • Shapley, Lloyd (1953). “Stochastic Games”. Proceedings of National Academy of Science 39: 1095–1100. 
  • Kallenberg, Lodewijk (2002). “Finite state and action MDPs”. Handbook of Markov decision processes: methods and applications. Springer. ISBN 0-7923-7459-2 
  • Bertsekas, D. (1995). Dynamic Programming and Optimal Control. 2. MA: Athena 
  • Burnetas, A.N.; Katehakis, M. N. (1997). “Optimal Adaptive Policies for Markov Decision Processes”. Mathematics of Operations Research 22 (1): 222. doi:10.1287/moor.22.1.222. 
  • Feinberg, E.A.; Shwartz, A., eds (2002). Handbook of Markov Decision Processes. Boston, MA: Kluwer 
  • Derman, C. (1970). Finite state Markovian decision processes. Academic Press 
  • Puterman., M. L. (1994). Markov Decision Processes. Wiley 
  • Tijms., H.C. (2003). A First Course in Stochastic Models. Wiley 
  • Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press. http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 
  • van Nunen, J.A. E. E (1976). “A set of successive approximation methods for discounted Markovian decision problems. Z”. Operations Research 20: 203-208. 
  • Narendra, K. S.; Thathachar, M. A. L. (1974-07-01). “Learning Automata - A Survey”. IEEE Transactions on Systems, Man, and Cybernetics SMC-4 (4): 323–334. doi:10.1109/TSMC.1974.5408453. ISSN 0018-9472. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5408453. 
  • Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989) (英語). Learning automata: An introduction. Prentice Hall. ISBN 9780134855585. https://books.google.com/books?id=hHVQAAAAMAAJ 
  • Meyn, S. P. (2007). Control Techniques for Complex Networks. Cambridge University Press. ISBN 978-0-521-88441-9. オリジナルの19 Jun 2010時点におけるアーカイブ。. https://web.archive.org/web/20100619011046/https://netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html  Appendix contains abridged Meyn & Tweedie”. 2012年12月18日時点のオリジナルよりアーカイブ。 Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  • Ross, S. M. (1983). Introduction to stochastic dynamic programming. Academic press 
  • Guo, X.; Hernández-Lerma, O. (2009). Continuous-Time Markov Decision Processes. Springer. http://www.springer.com/mathematics/applications/book/978-3-642-02546-4 
  • Puterman, M. L.; Shin, M. C. (1978). “Modified Policy Iteration Algorithms for Discounted Markov Decision Problems”. Management Science 24. 
  • Altman, Eitan (1999). Constrained Markov decision processes. 7. CRC Press 
  • Feyzabadi, S.; Carpin, S. (18–22 August 2014). "Risk-aware path planning using hierarchical constrained Markov Decision Processes". Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303. {{cite conference}}: 引数|ref=harvは不正です。 (説明)

External links

  1. ^ Burnetas & Katehakis 1997.