純化定理

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

ゲーム理論における純化定理 (じゅんかていり,purification theorem) は,ノーベル賞受賞者ジョン・ハーサニの 1973 年論文[1]による貢献である.この定理は,混合戦略ナッシュ均衡において,各プレーヤーは正確率で選ぶすべての行動について完全に無差別であるにもかかわらず,他のプレーヤーにとっても無差別にするためにそれらの行動を混合している,という不可解な側面について正当化することを狙ったものである.

混合戦略均衡は,各プレーヤーの利得が自分以外のプレーヤーには知られていないような不完備情報の変動ゲームの,純粋戦略均衡の極限として説明される.そのアイデアは,もとの理想化されたゲームを設計した理論家からは観察されないような,ゲームの漸次改善されていく近似として,もとのゲームで予測された混合戦略が生じてくるというものである.

戦略が外見的には混合されてみえる性質は,実際にはただ,プレーヤーがもつ利得の連続体の上の事前分布に依存して決まる閾値とあわせて純粋戦略をプレーするプレーヤーの結果である.この連続体が 0 に縮んでいくにつれて,プレーヤーたちの戦略は,もとの,変動していない完備情報ゲームにおいて予測されたナッシュ均衡に収束する.

この結果は,進化ゲーム理論の今日の研究における重要な一面にもなっている.そこではこの変動する値は,ゲームをプレーする集団内で無作為にペアになるプレーヤーたちのタイプの上の分布と解釈されている.

[編集]

C D
C 3, 3 2, 4
D 4, 2 0, 0

右に示したタカ–ハトゲームを考えよう.このゲームには 2 つの純粋戦略均衡,(D, C), (C, D) がある.また,両プレーヤーが C を確率 \frac{2}{3} でプレーする混合戦略均衡もある.

各プレーヤー i は,C をプレーするために追加的なコスト ai を負担するとし,これは [−A, A] 上の一様分布に従うとしよう.プレーヤーたちはこのコストについて,自分じしんの値だけを知っているとする.したがってこれは不完備情報のゲームであり,ベイジアン・ナッシュ均衡で解くことになる.

aia* となる確率は {a^* + A \over 2A} である.プレーヤー 2 は a2a* のときに C をとるものとすると,プレーヤー 1 が行動 C から得る期待利得は -a_1 + 3 \cdot {a^* + A \over 2A} + 2 \left( 1 - {a^* + A \over 2A} \right) となり,行動 D から得る期待利得は 4 \cdot {a^* + A \over 2A} となる.したがってプレーヤー 1 は,a_1 \le 2 - 3 \cdot {a^* + A \over 2A} のときに行動 C をとるべきことになる.両プレーヤーが aia* のときに C を選ぶような対称均衡を求めるため,これを等式として a^* = {1 \over 2 + 3 / A} と解く.

a* の値がわかったので,各プレーヤーが C をとる確率を,

\operatorname{Pr} (a_i \le a^*) = \frac{\displaystyle \frac{1}{2 + 3 / A} + A}{2A} = \frac{A}{4A^2 + 6A} + \frac{1}{2}

と計算することができる.ここで A → 0 とすると,この値は \frac{2}{3} に近づく.これは完備情報ゲームにおいてとられた混合戦略の確率である.

こうして,混合戦略は,プレーヤーたちが利得についてわずかな私的情報をもっているときにとられる純粋戦略の帰結であるとみなすことができる.

技術的な詳細[編集]

ハーサニの証明は,各プレーヤーに関する変動は他のプレーヤーからは独立であるという強い仮定を含んでいる.しかし,この定理をより一般的なものとするためのさらなる改良が試みられている[2][3]

所与のゲームのすべての混合戦略均衡は,同一の変動ゲームの列を用いることで純化することができるというのが,定理の主要な結果である.しかしこのことは,変動の独立性に加えて,このゲームの列の利得の集合が full measure をもつということにもよっている.病的な性質のためにこの条件が成りたたないようなゲームも存在する.

こうしたゲームにかかわる主要な問題は,次の 2 つのカテゴリのどちらかである:

  1. いくつかの異なる混合戦略が,変動ゲームの異なる列によって純化される.
  2. 弱く支配される戦略を含む混合戦略が存在する.

弱く支配される戦略を含む混合戦略は,この方法を用いても「純化」することができない.というのも,この弱く支配される戦略が最適反応にならないような戦略を相手プレーヤーがプレーするという非負の確率があるときには,プレーヤーは決して弱く支配される戦略をとりたいとは思わないからである.こうして,不連続性を含むために,極限で成立しなくなってしまう[4]

参考文献[編集]

  1. ^ J.C. Harsanyi. 1973. "Games with randomly disturbed payoffs: a new rationale for mixed-strategy equilibrium points. Int. J. Game Theory 2 (1973), pp. 1–23.
  2. ^ R. Aumann, et al. 1983. "Approximate Purificaton of Mixed Strategies. Mathematics of Operations Research 8 (1983), pp. 327–341.
  3. ^ Govindan, S., Reny, P.J. and Robson, A.J. 2003. "A Short Proof of Harsanyi's Purification Theorem. Games and Economic Behavior v45,n2 (2003), pp.369-374.
  4. ^ Fudenberg, Drew and Jean Tirole: Game Theory, MIT Press, 1991, pp. 233-234