囚人のジレンマ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

囚人のジレンマ(しゅうじんのジレンマ、英:Prisoner's Dilemma)とは、ゲーム理論における非協力ゲームの1つ。お互い協力する方が協力しあわないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマを出現させたゲームである[1]。ゲーム・プレイヤーの非協力関係を「囚人」の「自白」の可否判断に例えたため、この名がついている[2]

概要[編集]

1950年に数学者のアルバート・タッカーが、ランド研究所メリル・フラッド英語版メルビン・ドレシャー英語版が行った実験をもとに命名、提唱したゲーム理論である[3]。このゲームでは、相反する個人合理的な選択が相互的に収束する均衡点(ナッシュ均衡)がパレート最適とならない[4]

このため、囚人のジレンマは「社会的ジレンマ」を物語るゲーム理論として、自己の利益を追求する個人の間でいかに協力が可能かという観点から、経済学政治学社会学社会心理学倫理学哲学などの幅広い分野で着目されている[5]。また、自然科学でも生物学において生物の協力・非協力行動を説明するモデルとして研究されている[5]

ゲームの基本[編集]

共同で犯罪を行ったと思われる囚人A、Bを自白させるため、検事は2人に次のような司法取引をもちかけた[6]

  • もし、お前らが2人とも黙秘したら、2人とも懲役2年だ。
  • だが、お前らのうち1人だけが自白したらそいつはその場で釈放してやろう(つまり懲役0年)。この場合自白しなかった方は懲役10年だ。
  • ただし、お前らが2人とも自白したら、2人とも懲役5年だ。

この時、2人の囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。なお彼ら2人は別室に隔離されており、相談することはできない状況に置かれているとする。

囚人A、Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると、以下のようになる。表内の(○年、△年)は囚人A、Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄はA、Bがそれぞれ協調・裏切りを選択した場合、A、Bの懲役がそれぞれ10年、0年であることを意味する。

囚人B 協調 囚人B 裏切り
囚人A 協調 (2年、2年) (10年、0年)
囚人A 裏切り (0年、10年) (5年、5年)

この場合の(裏切り、裏切り) はナッシュ均衡ではあってもパレート最適ではない。

囚人2人にとって、互いに裏切り合って5年の刑を受けるよりは互いに協調し合って2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切り合うという結末を迎える。これがジレンマと言われる所以である。

このようなジレンマが起こるのは以下の理由による。まずAの立場で考えると、Aは次のように考えるだろう。

  1. Bが「協調」を選んだ場合、自分 (=A)の懲役は2年(「協調」を選んだ場合)か0年(「裏切り」を選んだ場合)だ。だから「裏切り」を選んで0年の懲役になる方が得だ。
  2. Bが「裏切り」を選んだ場合、自分 (=A)の懲役は10年(「協調」を選んだ場合)か5年(「裏切り」を選んだ場合)だ。だからやはり「裏切り」を選んで5年の懲役になる方が得だ。

以上の議論により、AにとってはBがどのような行動をとるかによらず、Bを裏切るのが最適な選択ということになる。よってAはBを裏切ることになる。

以上の事情はBにとっても同じであるため、BもAと同一の考えによってAを裏切るのが最適な選択である。したがって実現する結果は(裏切り, 裏切り)、すなわち両者とも5年の懲役となる。

重要なのは、相手に裏切られるかもしれないという懸念や恐怖から自分が裏切るのではなく、相手が黙秘しようが裏切ろうが自分は裏切ることになるという点である。このため仮に事前に相談できてお互い黙秘をすると約束していたとしても(それに拘束力が無い限りは)裏切ることになる。

有限繰り返しゲーム[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合における囚人達の行動は、彼らがゲームの繰り返し回数を知っているか知っていないかで異なる。

囚人たちがゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には囚人たち二人が全てのゲームで「裏切り」を選択することが知られている[7]。証明は、最終回のゲームからから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。

  • n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果がそれ以前に行ったn-1 個のゲームの戦略に影響することはない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
  • n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
  • 以下同様に考えることで、全てのゲームで囚人がともに「裏切り」を選択することが分かる。

無期限繰り返しゲーム[編集]

囚人たちがゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし無期限繰り返しゲームではゲームが終る確定的な期限が無いので後退帰納法が適用できず、協調の可能性が生まれる。このことは以下のフォーク定理で示される。

フォーク定理を説明するため、以下の利得表で表される囚人のジレンマゲームを考える[8]。この表は2人のプレーヤー p_ap_b が「協調」か「裏切り」かの戦略を選ぶるときの、1回ごとの利得を示す。並んだ数字の左側は p_a の利得、右側は p_b の利得である。

p_a \backslash p_b 協調 裏切
協調 2 \backslash 2 0 \backslash 3
裏切 3 \backslash 0 1 \backslash 1

最も簡単なフォーク定理は、プレーヤーが将来を割り引かず、常に明日のことを今日と同じぐらい大事に思う場合である[9]。ゲームを無限に何度も繰り返すものとして、各プレイヤーが無限回の利得を平均した平均利得を最大化すると想定しよう[10]。そして次のトリガー戦略を考える:

  • はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとりつづけ、そうでなければ協調する。

お互いにトリガー戦略をとっているときに自分がこの戦略から逸脱するインセンティブがあるかを考える。互いにトリガー戦略をとると互いに協調しつづけることになるので毎回の利得は2であり平均利得も2である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回は3の利得を手に入れるがその後は相手も裏切るので自分の利得はせいぜい1にしかならない。1回だけ利得3でその後ずっと毎回利得1なので平均利得は1になるが、これはトリガー戦略の平均利得2を下回る。つまりプレイヤーはトリガー戦略から逸脱すると長い目でみて損をする。したがって互いにトリガー戦略から逸脱せず協調しつづけるのがナッシュ均衡になる。これにより協調が生まれる可能性が示される。

もっとも、プレイヤーが平均利得を最大化するという設定は、プレイヤーが無限に忍耐強くて将来を割り引かないことを意味しており、現実的とはいえない[11]。プレイヤーが将来を割り引く場合については、次の通りである[12]

プレイヤーは将来の利得を一定の割引因子 \delta \in(0,1) で割り引いていくものとし、そうして割り引いた割引利得の総和を最大化するものと想定しよう。お互いトリガー戦略をとると互いに協調しつづけるので、毎回の利得は2であり割引利得の総和は

2+2\delta+2\delta^2+\ldots=\frac{2}{1-\delta}

である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回で利得3をとるが、その後の利得はせいぜい1であるので、割引利得の総和は

3+1\delta+1\delta^2+\ldots=3+\frac{1\delta}{1-\delta}

である。\delta\geq1/2 であれば裏切っても割引利得の総和が増えず、裏切るインセンティブがないので、トリガー戦略はナッシュ均衡になる。すなわち割引因子が十分に高い場合に協調が生まれる可能性がある。

ここまではゲームを永久につづける無限(infinitely)繰り返しゲームを考えたが、これは現実的とはいえないので、その代わりに無期限(indefinitely)繰り返しゲームを考える[11]。無期限繰り返しゲームは、ゲームが確定的に終わる期限はないが、ゲームが確率的に終わる可能性を想定する。ゲームの終わる確率が十分に小さければトリガー戦略がナッシュ均衡になり、協調の可能性が示される。

無期限繰り返しゲームにおいて、ナッシュ均衡を生み出す戦略はトリガー戦略のみに限らない。例えば最初は協調し以降は前回相手の出した手をそのまま出すしっぺ返し戦略も、逸脱するインセンティブがないので均衡となることを示される[13]。このように協調を実現するような均衡は無数に存在することを示すことができる[14]。また、互いに裏切り続けるのも均衡として残っている。

現実における囚人のジレンマ[編集]

企業の値下げ競争、公共財の供給、環境問題、共有資源の管理、自由貿易や軍縮のための国際協力など、現実社会における事象にも囚人のジレンマを使って説明できるものが多くある[4]

それどころか、囚人のジレンマはあらゆる商談についてまわる[15]。商品交換の機会は典型的な1回限りの囚人のジレンマの状況を含む[16]。取引によって互いに利益を得ることができるが、取引相手を騙すことで相手を犠牲にして自分の利益を増やすことができるからである[15][16]。具体的には、買い手が期日までに代金を支払わない、売り手が商品を引き渡さない、不良品のレモンを売りつける、といった裏切りである[16]。裏切りをコントロールする仕組みがなければ取引は実現しないが、その仕組みは取引の繰り返しによって確保されるかもしれない[15]。取引相手が裏切ったら将来の取引をやめるという脅しをかけあうことで裏切りを阻止するのである[17]

自己啓発セミナーでは、「赤黒ゲーム」や「win-winのゲーム」と呼ばれる「くり返し型の囚人のジレンマ」ゲーム(ルールは多少異なる)が、セミナー参加者が実習するプログラムの一つとして利用される[18]

脚注[編集]

  1. ^ 渡辺(2008)p25-27。
  2. ^ パウンドストーン(1995)。
  3. ^ 岡田(2008)p88。ジーグフリード(2010)p112。
  4. ^ a b 岡田(2008)p87
  5. ^ a b 岡田(2008)p102。
  6. ^ 岡田(2008)p87-88。量刑などの細かい設定は異なる。
  7. ^ 渡辺(2008)p296-301。
  8. ^ 利得表の数値はビンモア(2015)p98図7による。
  9. ^ ビンモア(2015)p16。
  10. ^ ビンモア(2015)p121-123。またはBinmore (2004)、7. Folk theorem。
  11. ^ a b ビンモア(2015)p124。またはBinmore (2004) の"What can go wrong?"の節。
  12. ^ 岡田(2008)p135-146。
  13. ^ 岡田(2008)p144-147。
  14. ^ 岡田(2008)p147-151。
  15. ^ a b c シグムンド(1996)p384。
  16. ^ a b c 青木(2003)p67。
  17. ^ 青木(2003)p70。
  18. ^ LGAT Basic Cource Description 第一段階のプログラム. Large Group Awareness Training 自己啓発セミナーに関する情報

参考文献[編集]

  • 青木昌彦 『比較制度分析に向けて』 滝沢弘和・谷口和弘訳、NTT出版、2003年10月、新装版。ISBN 9784757121195
  • アクセルロッド 『つきあい方の科学――バクテリアから国際関係まで』 松田裕之訳、ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4623029239原書 Axelrod, Robert (October 1985). The Evolution of Cooperation. Basic Books. ISBN 0465021212. 
  • 岡田章 『ゲーム理論・入門――人間社会の理解のために』 有斐閣〈有斐閣アルマ〉、2008年8月。ISBN 9784641123625
  • パウンドストーン 『囚人のジレンマ――フォン・ノイマンとゲームの理論』 松浦俊輔訳、青土社、1995年3月。ISBN 4791753607原書 Poundstone, William (January 1993). Prisoner's dilemma. Anchor. ISBN 038541580X. 
  • ジーグフリード 『もっとも美しい数学 ゲーム理論』 富永星訳、文藝春秋〈文春文庫〉、2010年ISBN 9784167651718
  • シグムンド 『数学でみた生命と進化――生き残りゲームの勝者たち』 富田勝訳、講談社〈講談社ブルーバックス〉、1996年3月(原著1993年)。ISBN 9784062571111
  • ビンモア 『正義のゲーム理論的基礎』 栗林寛幸訳、NTT出版〈叢書《制度を考える》〉、2015年5月。ISBN 9784757122338
  • 渡辺隆裕 『ゼミナール ゲーム理論入門』 日本経済新聞出版社、2008年4月。ISBN 9784532133467

関連項目[編集]

外部リンク[編集]