囚人のジレンマ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

囚人のジレンマ(しゅうじんのジレンマ、英:Prisoner's Dilemma)とは、ゲーム理論経済学における重要概念の一つで、「互いに協調する方が裏切り合うよりもよい結果になることが分かっていても、皆が自身の利益を優先している状況下では、互いに裏切りあってしまう」というようなジレンマを指す。

「囚人のジレンマ」と言う名称は、後述する司法取引のシナリオからきているものの、このシナリオはあくまでモデルをわかりやすくするための例にすぎず、ジレンマ自身は純粋に数学的に定式化される。 同種のジレンマが経済現象でも頻繁に見られること(値下げ競争、環境保護など)から、ゲーム理論における重要な研究対象とされ、近年では行動経済学の分野でも研究が進んでいる。

このジレンマはアメリカ合衆国ランド研究所メリル・フラッド (Merrill Flood) とメルビン・ドレシャー (Melvin Dresher) が1950年に考案し、顧問のアルバート・W・タッカー (A.W.Tucker) が定式化した。

その題材はTVや映画等でも取り上げられている(例えば、LIAR GAME など)ため、非専門家にも知名度は高い。

問題[編集]

共同で犯罪を行ったと思われる囚人A、Bを自白させるため、警官は2人に以下の条件を伝えた。

  • もし、お前らが2人とも黙秘したら、2人とも懲役2年だ。
  • だが、お前らのうち1人だけが自白したらそいつはその場で釈放してやろう(つまり懲役0年)。この場合自白しなかった方は懲役10年だ。
  • ただし、お前らが2人とも自白したら、2人とも懲役5年だ。

この時、2人の囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。 なお彼ら2人は別室に隔離される等しており、2人の間で強制力のある合意を形成できない 状況におかれているとする。 (例えば自分だけが釈放されるように相方を脅迫したり、二人共黙秘するような契約書をかわしたりすることはできないと言うこと)。

囚人A、Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると、以下のようになる。 表内の(○年、△年)は囚人A、Bの懲役がそれぞれ○年、△年であることを意味する。 たとえば表の右上の欄はA、Bがそれぞれ協調・裏切りを選択した場合、A、Bの懲役がそれぞれ10年、0年であることを意味する。

囚人B 協調 囚人B 裏切り
囚人A 協調 (2年、2年) (10年、0年)
囚人A 裏切り (0年、10年) (5年、5年)

解説[編集]

囚人2人にとって、互いに裏切り合って5年の刑を受けるよりは互いに協調し合って2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切り合うという結末を迎える。 これがジレンマと言われる所以である。

このようなジレンマが起こるのは以下の理由による。まずAの立場で考えると、Aは次のように考えるだろう。

  1. Bが「協調」を選んだ場合、自分 (=A)の懲役は2年(「協調」を選んだ場合)か0年(「裏切り」を選んだ場合)だ。だから「裏切り」を選んで0年の懲役になる方が得だ。
  2. Bが「裏切り」を選んだ場合、自分 (=A)の懲役は10年(「協調」を選んだ場合)か5年(「裏切り」を選んだ場合)だ。だからやはり「裏切り」を選んで5年の懲役になる方が得だ。

以上の議論により、AはBがどのような行動をとるかによらず、Bを裏切るのが最適な選択と言える。よってAはBを裏切ることになる。しかし、それはBにも同じことが言える(Bにも同じ条件が与えられている)ので、BもAと同様の考えにより、Aを裏切ることになる。よって実現する結果は(裏切り, 裏切り)となる。

重要なのは、相手に裏切られるかもしれないという懸念や恐怖から自分が裏切るのではなく、相手が黙秘しようが裏切ろうが自分は裏切ることになるという点である。このため仮に事前に相談できたとしてお互い黙秘をすると約束したとしても、(それに拘束力が無い限りは)裏切ることになる。

なお、この場合のパレート効率的な組合せは、(協調、協調)、(協調、裏切り)、(裏切り、協調)の3つであり、(裏切り、裏切り) はナッシュ均衡ではあってもパレート効率的ではない。

有限回繰り返し型の囚人のジレンマ[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合における囚人達の行動は彼らがゲームの繰り返し回数を知っているかとそうでないかで異なる。

前者は有限回繰り返し型の囚人のジレンマと呼ばれ、 この場合には囚人たち二人が全てのゲームで「裏切り」を選択することが知られている。証明は、最終回のゲームからから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。

  • n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果がそれ以前に行ったn-1 個のゲームの戦略に影響することはない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
  • n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
  • 以下同様に考えることで、全てのゲームで囚人がともに「裏切り」を選択することが分かる。

無限回繰り返し型の囚人のジレンマ[編集]

一方囚人たちがゲームの繰り返し回数を知らない場合は無限回繰り返し型の囚人のジレンマと呼ばれる。 ただしここで「無限回繰り返し型」という名称であるが、本当に無限回ゲームを行う分けではなく、 以下のような状況を指す: 各ゲームが終わる度に(裏が出る確率が事前に定められた値pである)コインを振り、コインが表であればもう一度ゲームを行い、 そうでなければゲームを終了する。 ここで確率p割引因子 と呼ばれる。

通常の経済現象において無限回繰り返すものはないが、割引因子はゲームが終わる確率であるので、これは繰り返し回数をいずれの囚人も知らず、いつ終わるかわからない状況ともみることができる。

有限回繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし無限回繰り返しゲームには最終回のゲームというものは無いので後退帰納法が適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得票で表される囚人のジレンマゲームを考える。 以下の表は2人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。

Pa/Pb 協調 裏切り
協調 2, 2 0, 3
裏切り 3, 0 1, 1

上述のゲームにおいて例えば次のような戦略(トリガー戦略)を考える:はじめは協調を選択し相手が一度でも裏切ったらそれ以降は裏切りをとり続ける。

お互いにこの戦略をとっているときに自分が裏切るインセンティブがあるかを、 現時点とそれ以降のゲームで得られる総利得の期待値で考える。 自分が裏切った場合、裏切った時点で利得3が得られ、その後の各ゲームでは相手も裏切るので利得1が入る。 ゲームがあとn回続く確率はpnなので、総利得の期待値は以下のようになる:

3+p+p^2+\ldots=\frac{3+p}{1-p}

一方自分が協調し続けた場合、相手も協調しつづけるので各ゲームで利得2が得られる。 よってこの場合の総利得の期待値は

2+2p+2p^2+\ldots=\frac{2p}{1-p}

である。従ってp>3/4のとき、裏切りよりも協調の時のほうが総利得の期待値が大きいので、お互い協調を選択することとなる。よってトリガー戦略から逸脱する行動をとることはないので、トリガー戦略は均衡となる。

このような均衡を生み出す戦略はトリガー戦略のみに限らない。例えば最初は協調し以降は前回相手の出した手をそのまま出す戦略(しっぺ返し戦略)も、逸脱するインセンティブがないので均衡となることを示される。このように、割引因子が十分に1に近い場合(すなわち将来の利得を高く評価する場合)、協調を実現するような均衡は無数に存在することを示すことができる(フォーク定理)。

現実における囚人のジレンマ[編集]

現実世界における事象にも囚人のジレンマを使って説明できるものが多くあるため、このジレンマは政治経済の解析にかかせない。 例えば、A国とB国が両方とも軍隊を廃止すれば、費用をかけず平和を維持できるのに、自国の利益を優先して双方とも大きな費用のかかる軍隊を持ってしまう。また、低価格競争でも、A社とB社が両方とも値下げを止めれば儲けが増えるにもかかわらず、自社の利益を優先して双方ともに値下げしてしまう。

その一方で、囚人のジレンマのような状況でも、協調が実現している経済現象も存在する。例えば談合など、相手の行動に拘らず自分が裏切れば利得を得ることができるのに、実際には協調し続けるような状況があげられる。このような状況は、談合はいつ終わるか分からないので無限回繰り返しゲームと解釈することで協調を説明することができる。

脚注[編集]

参考文献[編集]

  • Axelrod, Robert (October 1985). The Evolution of Cooperation. Basic Books. ISBN 0465021212. (邦訳 R.アクセルロッド 『つきあい方の科学――バクテリアから国際関係まで』 松田裕之、ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4623029239
  • Poundstone, William (January 1993). Prisoner's dilemma. Anchor. ISBN 038541580X. (邦訳 ウィリアム・パウンドストーン 『囚人のジレンマ――フォン・ノイマンとゲームの理論』 松浦俊輔、青土社、1995年3月。ISBN 4791753607

関連項目[編集]

外部リンク[編集]