囚人のジレンマ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

囚人のジレンマ(しゅうじんのジレンマ、: prisoners' dilemma)とは、ゲーム理論におけるゲームの1つ。お互い協力する方が協力しないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマである[1]。各個人が合理的に選択した結果(ナッシュ均衡)が社会全体にとって望ましい結果(パレート最適)にならないので、社会的ジレンマとも呼ばれる[2]

1950年に数学者のアルバート・タッカーが考案した[3]ランド研究所メリル・フラッド英語版メルビン・ドレシャー英語版の行った実験をもとに、タッカーがゲームの状況を囚人黙秘自白にたとえたため、この名がついている[4]

囚人のジレンマではゲームを無期限に繰り返すことで協力の可能性が生まれる(後述)。囚人のジレンマは、自己の利益を追求する個人の間でいかに協力が可能となるかという社会科学の基本問題であり、経済学政治学社会学社会心理学倫理学哲学などの幅広い分野で研究されているほか、自然科学である生物学においても生物の協力行動を説明するモデルとして活発に研究されている[5]

ゲームの基本[編集]

共同で犯罪を行ったと思われる囚人A、Bを自白させるため、検事は2人に次のような司法取引をもちかけた[6]

  • もし、お前らが2人とも黙秘したら、2人とも懲役2年だ。
  • だが、お前らのうち1人だけが自白したらそいつはその場で釈放してやろう(つまり懲役0年)。この場合自白しなかった方は懲役10年だ。
  • ただし、お前らが2人とも自白したら、2人とも懲役5年だ。

この時、2人の囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。なお彼ら2人は別室に隔離されており、相談することはできない状況に置かれているとする。

囚人A、Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると、以下のようになる。表内の (○年, △年) は囚人A、Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄はAが協調、Bが裏切りを選択した場合、Aの懲役は10年、Bの懲役は0年であることを意味する。

囚人B 協調 囚人B 裏切り
囚人A 協調 (2年, 2年) (10年, 0年)
囚人A 裏切り (0年, 10年) (5年, 5年)

この場合の (裏切り, 裏切り) は、ナッシュ均衡ではあってもパレート最適ではない。

囚人2人にとって、互いに裏切り合って5年の刑を受けるよりは互いに協調し合って2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切り合うという結末を迎える。これがジレンマと言われる所以である。

このようなジレンマが起こるのは以下の理由による。まずAの立場で考えると、Aは次のように考えるだろう。

  • Bが「協調」を選んだ場合、自分 (=A) の懲役は2年(「協調」を選んだ場合)か0年(「裏切り」を選んだ場合)だ。だから「裏切り」を選んで0年の懲役になる方が得だ。
  • Bが「裏切り」を選んだ場合、自分 (=A) の懲役は10年(「協調」を選んだ場合)か5年(「裏切り」を選んだ場合)だ。だからやはり「裏切り」を選んで5年の懲役になる方が得だ。

以上の議論により、AにとってはBがどのような行動をとるかによらず、Bを裏切るのが最適な選択ということになる。よってAはBを裏切ることになる。

以上の事情はBにとっても同じであるため、BもAと同一の考えによってAを裏切るのが最適な選択である。したがって実現する結果は (裏切り, 裏切り) 、すなわち両者とも5年の懲役となる。

重要なのは、相手に裏切られるかもしれないという懸念や恐怖から自分が裏切るのではなく、相手が黙秘しようが裏切ろうが自分は裏切ることになるという点である。このため仮に事前に相談できてお互い黙秘をすると約束していたとしても(それに拘束力が無い限りは)裏切ることになる。

有限繰り返しゲーム[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合(繰り返しゲーム)における囚人達の行動は、彼らがゲームの繰り返し回数を知っているか知っていないかで異なる。

囚人たちがゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には囚人たち二人が全てのゲームで「裏切り」を選択することが知られている[7]。証明は、最終回のゲームからから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。

  • n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果がそれ以前に行ったn-1 個のゲームの戦略に影響することはない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
  • n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
  • 以下同様に考えることで、全てのゲームで囚人がともに「裏切り」を選択することが分かる。

無期限繰り返しゲーム[編集]

囚人たちがゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし無期限繰り返しゲームではゲームが終る確定的な期限が無いので後退帰納法を適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える[8]。この表は2人のプレーヤー p_ap_b が「協調」か「裏切り」かの戦略を選ぶときの、1回ごとの利得を示す。並んだ数字の左側は p_a の利得、右側は p_b の利得である。

p_a \backslash p_b 協調 裏切
協調 2 \backslash 2 0 \backslash 3
裏切 3 \backslash 0 1 \backslash 1

そして次のトリガー戦略を考える。

  • はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとりつづけ、そうでなければ協調する。

お互いにトリガー戦略をとっているときに自分がこの戦略から逸脱するインセンティブがなければ、トリガー戦略がナッシュ均衡になることが示される。

最も簡単なケースは、プレーヤーが将来を割り引かず、常に明日のことを今日と同じぐらい大事に思う場合である[9]。ゲームを無限に何度も繰り返すものとして、各プレイヤーが無限回の利得を平均した平均利得を最大化すると想定しよう[10]。互いにトリガー戦略をとると互いに協調しつづけることになるので毎回の利得は2であり平均利得も2である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回は3の利得を手に入れるがその後は相手も裏切るので自分の利得はせいぜい1にしかならない。1回だけ利得3でその後ずっと毎回利得1なので平均利得は1になるが、これはトリガー戦略の平均利得2を下回る。つまりプレイヤーはトリガー戦略から逸脱すると長い目でみて損をする。したがって互いにトリガー戦略から逸脱せず協調しつづけるのがナッシュ均衡になる。これにより協調が生まれる可能性が示される。

ナッシュ均衡を生み出す戦略はトリガー戦略のみに限らない。例えば最初は協調し以降は前回相手の出した手をそのまま出すしっぺ返し戦略も、逸脱するインセンティブがないので均衡となる[11]。このほか協調を実現する均衡は無数に存在する。また、互いに裏切り続けるのも均衡として残る。このように無数の均衡が存在することはフォーク定理で示される[12]

将来を割り引くケース[編集]

上記の平均利得を最大化するという設定は、プレイヤーが無限に忍耐強くて将来を割り引かないことを意味しており、現実的とはいえない[13]。プレイヤーが将来を割り引く場合については、次の通りである[14]

プレイヤーは将来の利得を一定の割引因子 \delta \in(0,1) で割り引いていくものとし、そうして割り引いた割引利得の総和を最大化するものと想定しよう。お互いトリガー戦略をとると互いに協調しつづけるので、毎回の利得は2であり割引利得の総和は

2+2\delta+2\delta^2+\ldots=\frac{2}{1-\delta}

である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回で利得3をとるが、その後の利得はせいぜい1であるので、割引利得の総和は

3+1\delta+1\delta^2+\ldots=3+\frac{1\delta}{1-\delta}

である。\delta\geq1/2 であれば裏切っても割引利得の総和が増えず、裏切るインセンティブがないので、トリガー戦略はナッシュ均衡になる。すなわち割引因子が十分に高い場合に協調が生まれる可能性がある。

ゲームが終るかもしれないケース[編集]

ここまではゲームを永久につづける無限(infinitely)繰り返しゲームを考えたが、これは現実的とはいえないので、その代わりに無期限(indefinitely)繰り返しゲームを考える[13]。無期限繰り返しゲームは、ゲームが確定的に終わる期限はないが、ゲームが確率的に終わる可能性を想定する。ゲームの終わる確率が十分に小さければトリガー戦略がナッシュ均衡になり、協調の可能性が示される。

不完全観測のケース[編集]

ここまでは相手の行動を完全に観測できると想定した。現実には「相手に協調してもらったのに裏切られたと誤解する」「裏切られたのに気付かない」というように、他人の行動を不完全にしか観測できないことが多い。このような不完全観測のもとでの無期限繰り返し囚人のジレンマの理論は近年大きく発展している[15]

不完全観測のケースでは、相手の他のプレイヤーの行動を不完全ながら表すシグナルを観察できるものとし、誰もが観察できるシグナルがある場合を公的不完全観測、各人自分しか見れないシグナルを観察する場合を私的不完全観測という[16]

公的不完全観測のケースは比較的分析が容易である[17]。完全観測下のトリガー戦略に似た戦略で協調が生まれる[18]。フォーク定理は1994年にきわめて緩い条件のもとで証明された[19]

一方、私的不完全観測のケースは分析が困難で、いまだ研究途上にある[17]。私的不完全観測では協調を生み出す戦略を見つけること自体が難問で、長い間ゲーム理論の未解決問題として有名であった[20]。この難問に初めて答えが出たのは1997年のことで、きわめて高い精度で人の行動を私的観測できる場合の囚人のジレンマで協調を生み出す戦略が見つかった[20]。また、各期の終わりに集まってコミュニケーションをとれる場合に限っていえば、1998年に一定の緩い条件のもとでフォーク定理が証明された[21]。コミュニケーションを取れない場合については、相手が今までみてきたことを全く気にする必要のないような特殊な均衡をつくる信念不問アプローチが多くの成果を挙げている[21]。2002年には信念不問アプローチにより囚人のジレンマの均衡を簡単につくる方法が発見され、本格研究が進展し始めた[21]。そして2012年、ついに私的不完全観測下のフォーク定理がかなり緩い条件のもとで証明された[22]

現実における囚人のジレンマ[編集]

企業の値下げ競争、公共財の供給、環境問題、共有資源の管理、自由貿易や軍縮のための国際協力など、現実社会における事象にも囚人のジレンマを使って説明できるものは多くある[2]

それどころか、囚人のジレンマはあらゆる商談についてまわる[23]。商品交換の機会は典型的な1回限りの囚人のジレンマの状況を含む[24]。取引によって互いに利益を得ることができるが、取引相手を騙すことで自分の利益を増やすことができるからである。具体的には、買い手が期日までに代金を支払わない、売り手が商品を引き渡さない、不良品のレモンを売りつける、といった裏切りである。取引が実現するには裏切りをコントロールする仕組みが必要だが、その仕組みは取引の繰り返しによっても確保される。取引相手が裏切ったら将来の取引をやめるという脅しをかけあうことで裏切りを阻止するのである。

アクセルロッドに対する批判[編集]

政治学者アクセルロッドは、無期限繰り返し囚人のジレンマの競技会を企画し、各分野の社会科学者からコンピュータ・プログラムを募って対戦させた。その結果、しっぺ返し戦略が優勝した。さらにアクセルロッドが参加プログラムについて進化シミュレーションを走らせたところ、生き残った戦略のなかでしっぺ返し戦略の数が最大であった。アクセルロッドはこれらの結果にもとづいて、しっぺ返し戦略は善良・報復・寛容・明快を兼ね備えており人間の協力全般にとって適切なパラダイムである、と主張した。この主張を鵜呑みにする社会科学者は少なくない[25]

アクセルロッドの研究は大きな反響を呼び、これ以降、進化生物学、社会学、政治学、コンピュータ科学などにおいて、さまざまな戦略を戦わせて、どの戦略が生き残るかをみるコンピュータ・シミュレーションが行われるようになった。このようなアクセルロッド流シミュレーション研究は、均衡の存在を数学で証明する本来のゲーム理論とほとんど関係がない[26]

アクセルロッドの研究はゲーム理論研究者の間で評判がよくなかった[26]ケン・ビンモアらゲーム理論研究者はアクセルロッドを次のように批判する。

  • アクセルロッドの研究のせいで、かなりトンデモない(astonishing)主張が広まってしまった。しっぺ返しはあらゆるシミュレーション環境で最適なのだとか、ひどいのになると、しっぺ返しは人類の複雑な社会関係における協力の基礎であり生物の社会的協力の進化を全て説明できるのだとかいう主張である。[27]
  • アクセルロッドは、トーナメントの結果から長期的人間関係について一般的な教訓を導いているが、そのような一般化が可能であるという理論的根拠を示していない。根拠のない一般化は危険である[28]
  • アクセルロッドはうっかり有限繰り返し型の囚人のジレンマの進化シミュレーションを走らせてしまった。有限繰り返し囚人のジレンマは必ず裏切りあいの結果になるので、シミュレーションを走らせる必要はない。勝つ戦略は決して協力しない。[29]
  • アクセルロッドの得た結果はそのシミュレーション環境に依存している。アクセルロッドのシミュレーションで生き残った戦略は6つあり、そのうちしっぺ返し戦略の割合は1/6を少し超える程度にすぎない。戦略の初期数を変えると、生き残るしっぺ返し戦略の数は最大にならない[30]
  • アクセルロッドがしっぺ返し戦略に見出したという善良・報復・寛容・明快の利点なるものは、一つ一つ検討してみると、どれも妥当なものではない[30]
  • 無期限囚人のジレンマで協力の可能性がありうることは、アクセルロッドの研究の何十年もまえにフォーク定理で証明されている。ゲーム理論を全く知らなかったアクセルロッドはフォーク定理の一部を発見したにすぎない。[31]

アクセルロッドはゲーム理論からの批判を意図的に無視し続けているという[31]

なお、ゲーム理論においてアクセルロッドの業績が全否定されているわけではない。ビンモアによると、アクセルロッドの貢献はただ一点。フォーク定理が存在を証明する無数の均衡の中から特定の均衡を選ぶことが重要であると気づかせてくれた点にある。進化ゲームによる均衡選択は今やゲーム理論の均衡選択問題で標準的なアプローチになっている。アクセルロッドはその先駆者である、という[31]

関連する概念[編集]

一方向の囚人のジレンマ[編集]

囚人のジレンマの標準的なゲームでは二人のプレイヤーが同時に行動する。これに対して、プレイヤーの間で行動のタイミングがずれるゲームは一般に信頼ゲームと呼ばれるが、一方向の囚人のジレンマとも呼ばれる[32]。一方向の囚人のジレンマは、同時行動の囚人のジレンマと同じように、一回限りでは協力が成立しないが、無期限に繰り返すと協力が成立し得る。

社会的ジレンマ[編集]

社会学では囚人のジレンマを3人以上の集団に拡大したものを社会的ジレンマと呼ぶことがある[33]。この意味での社会的ジレンマは、社会において(1)各人が協力か非協力かを選ぶ、(2)各人にとっては協力よりも非協力を選ぶほうが望ましい結果を得る、(3)全員が非協力を選ぶと全員が協力を選んだ場合より誰にとっても望ましくない結果におちいる、と定義される[34]

社会学では、社会的ジレンマを多人数囚人のジレンマに限るのは社会的ジレンマの定義として狭すぎるという意見がある[35]。社会的ジレンマの定義を拡張し、社会的ジレンマを全てのナッシュ均衡がパレート非効率であるゲームと定義する[36]とか、さらにはナッシュ均衡がパレート効率である多人数チキンゲームを社会的ジレンマに含める[37]といったことがある。

直接互恵[編集]

直接互恵は、トリヴァースが提唱した進化生物学の概念であり、個体間の協力が進化するメカニズムの一つである[38]。直接互恵では、2つの個体が繰り返し出会い、出会うたびに協力か裏切りを選ぶ。自分が今回協力すれば相手も次回協力してくれるかもしれないので協力は有利かもしれない。この直接互恵は、ゲーム理論の繰り返し囚人のジレンマに相当する。

アクセルロッドが行った囚人のジレンマのコンピュータ・トーナメントでは単純なしっぺ返し戦略が優勝したが、しっぺ返し戦略の弱点はすぐに見つかった。「震える手」や「曖昧な心」による誤作動があると、しっぺ返し戦略の成績は悪化する。単純なしっぺ返し戦略では間違えて裏切ると報復合戦に陥って間違いを修復できないからである。そこで、しっぺ返し戦略に代わって「寛容なしっぺ返し」戦略が台頭する。これは相手が協力するときは常に協力するが相手が裏切っても時々協力する戦略である。

次いで、さらに単純な「勝てばそのまま負ければかえる」戦略が台頭する。これは、うまくやっている時は手を替えないが、さもなければ替えるという戦略である。「勝てばそのまま負ければかえる」戦略は、成績の計測次第で「しっぺ返し」や「寛容なしっぺ返し」より強い。しっぺ返し戦略は裏切者の多い社会において協力を促進するが、一旦協力が確立されると「勝てばそのまま負ければかえる」戦略のほうがもっと協力を維持できる。

協力を促す戦略は無数にあるが、その一般法則は次の通りである。同じ2つの個体が再び出会う確率wが、協力行動の費用 c と利益 b の比率を上回る場合(w > c / b)に限り、直接互恵は協力の進化を促す。

赤黒ゲーム[編集]

自己啓発セミナーでは、有限繰り返しゲーム型の囚人のジレンマを「赤黒ゲーム」と称して、セミナー参加者の実習プログラムの一つに利用するという[39]。参加者が(合理的に)裏切りを選んでいくと、ゲームが終わった後で、このゲームの真の目的は協調して勝つことです、裏切っていては勝てませんよ、いままでの生き方をかえなければなりませんね、などと(非合理的に)叱られるらしい。

脚注[編集]

[ヘルプ]
  1. ^ 渡辺 (2008, pp. 25–27)。
  2. ^ a b 岡田 (2008, p. 87、pp.102–103)。
  3. ^ 岡田 (2008, p. 88)。
  4. ^ Osborne & Rubinstein (1994, p. 30)
  5. ^ 岡田 (2008, p. 102)。
  6. ^ 岡田 (2008, pp. 87–88)。量刑などの細かい設定は異なる。
  7. ^ 渡辺 (2008, pp. 296–301)。
  8. ^ 利得表の数値はビンモア (2015, p. 98)図7による。
  9. ^ ビンモア (2015, p. 16)。
  10. ^ ビンモア (2015, pp. 121–123)。またはBinmore (2004)、7. Folk theorem。
  11. ^ 岡田 (2008, pp. 144–147)。
  12. ^ 岡田 (2008, pp. 147–151)。
  13. ^ a b ビンモア (2015, p. 124)。またはBinmore (2004)の"What can go wrong?"の節。
  14. ^ 岡田 (2008, pp. 135–146)。
  15. ^ 神取 (2015, p. 55)。
  16. ^ 神取 (2015, p. 58)。
  17. ^ a b 神取 (2015, p. 59)。
  18. ^ 神取 (2015, p. 61)。
  19. ^ 神取 (2015, p. 69)。
  20. ^ a b 神取 (2015, p. 72)。
  21. ^ a b c 神取 (2015, p. 75)。
  22. ^ 神取 (2015, pp. 78–79)
  23. ^ シグムンド (1996, p. 384)。
  24. ^ 青木 (2003, pp. 6770)。以下この段落はこれによる。
  25. ^ この段落はビンモア (2015, p. 119)およびBinmore (2004)の"Axelrod’s Olympiad"を参照した。アクセルロッド本人の著書はアクセルロッド (1998)(原著1984年)である。
  26. ^ a b 神取 (2015, p. 30)。
  27. ^ Binmore (1998)で引用される J. Martinez-Coll and J. Hirshleifer (1991)"The limits of reciprocity"Rationality and Society 3, p35-64。
  28. ^ 神取 (2015, pp. 30–31)。著名なゲーム理論研究者「M教授」の意見を著者が解釈したもの。
  29. ^ Binmore (1998)で紹介される J. Nachbar (1992) "Evolution in the finitely repeated Prisoners' Dilemma," Journal of Economic Behavior and Organization 19, p307-326。
  30. ^ a b ビンモア (2015, pp. 119–120)およびBinmore (2004)の"Axelrod’s Olympiad"。
  31. ^ a b c Binmore (1998)。ケン・ビンモア. 「アクセルロッド『対立と協調の科学』書評:「しっぺ返し」はそんなにすごいものではありません」. ELSE, Economics Department, University College London. (1998, JASSS vol 1, no 1.).
  32. ^ グライフ (2009, pp. 354–361)
  33. ^ 山岸 (2000, pp. 48–49)。
  34. ^ 山岸 (2000, pp. 17–18)。
  35. ^ 武藤 (2005)
  36. ^ 武藤 (2005)で紹介される Raub,W.,(1988) "problematic Social Situation and the Large Number of Dilemma: A Game-theoretical Analysis," Journal of Mathematical Sociology 13(4), pp311-357や、永田えりこ(1988)「自由と効率」『方法と理論』3(1),pp43-56。
  37. ^ 武藤 (2005)で紹介される Taylor,M.(1987)Possibility of Cooperation, Cambridge University Pressや、木村邦博(2002)『大集団のジレンマ』ミネルヴァ書房。
  38. ^ Nowak (2006)の Direct Reciprocity 。以下この節はこれによる。
  39. ^ サイト『Large Group Awareness Training 自己啓発セミナーに関する情報』のページ「LGAT Basic Cource Description 第一段階のプログラム」による。同サイトの「自己啓発セミナーについて参考になる書籍等」によると、赤黒ゲームに関する具体的な記述は、二澤雅喜・島田裕巳『洗脳体験<増補版>』(宝島社文庫、1998年)や久保博司『人は、変れる。』(プレジデント社、1993年)にあるという。

参考文献[編集]

関連項目[編集]

外部リンク[編集]