囚人のジレンマ

囚人のジレンマ（しゅうじんのジレンマ、英：Prisoner's Dilemma）は、ゲーム理論や経済学において、個々の最適な選択が全体として最適な選択とはならない状況の例としてよく挙げられる問題。非ゼロ和ゲームの代表例でもある。この問題自体はモデル的であるが、実社会でもこれと似たような状況（値下げ競争、環境保護など）は頻繁に出現する。

1950年、アメリカ合衆国ランド研究所のメリル・フラッド (Merrill Flood) とメルビン・ドレシャー (Melvin Dresher) が考案し、顧問のアルバート・W・タッカー (A.W.Tucker) が定式化した。

囚人のジレンマ

問題

共同で犯罪を行った（と思われる）2人が捕まった。警官たちはこの犯罪の原因たる証拠などをまったく掴めていない為、この現状のままでは2人の罪は重くても2年である。そこで警官はこの2人の囚人に自白させる為に、彼らの牢屋を順に訪れ、自白した場合などの司法取引について以下の条件を伝えた。

もし、お前らが2人とも黙秘したら、2人とも懲役2年だ。
だが、共犯者が黙秘していても、お前だけが自白したらお前だけはその場で釈放してやろう（つまり懲役0年）。ただし、共犯者の方は懲役10年だ。
逆に共犯者だけが自白し、おまえが黙秘したら共犯者がその場で釈放される事になる。ただし、お前の方は懲役10年だ。
ただし、お前らが2人とも自白したら、2人とも懲役5年だ。

なお、2人は双方に同じ条件が提示されている事を知っているものとする。また、彼らは2人は別室に隔離されていて、2人の間で強制力のある合意を形成できないとする（すなわち、事前に2人が会って相談したり、自分だけが釈放されるように相方を脅迫したりする事はできないと言う事）。

この時、2人の囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。

2人の囚人の名前をA、Bとして表にまとめると、以下のようになる。表内の左側が囚人Aの懲役、右側が囚人Bの懲役を表す。たとえば右上の欄は、Aが懲役10年、Bがその場で釈放される事を意味する。

	囚人B 協調	囚人B 裏切り
囚人A 協調	（2年、2年）	（10年、0年）
囚人A 裏切り	（0年、10年）	（5年、5年）

解説

囚人2人にとって、互いに裏切り合って5年の刑を受けるよりは互いに協調し合って2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切り合うという結末を迎える。この条件をAの立場で考えると、Aは以下のように考えるだろう。

Bが協調した（黙認）場合、もし自分 (=A) がBと協調すれば自分は懲役2年だが、逆に自分がBを裏切ればその場で釈放される。だからBを裏切った方が得だ。
Bが自分を裏切った（自白）場合、もし自分がBと協調すれば自分は最悪の懲役10年だが、逆に自分がBを裏切れば懲役は5年で済む。だからやはりBを裏切った方が得だ。

以上の議論により、AはBがどのような行動をとるかにかかわらず、Bを裏切るのが最適な選択と言える。よってAはBを裏切る事になる。しかし、それはBにも同じ事が言える（Bにも同じ条件が与えられている）ので、BもAと同様の考えにより、Aを裏切る事になる。

よって両者は、互いに裏切り合うよりは互いに協調し合った方が得である事を事前に知っていたにもかかわらず、互いに裏切り合って中途半端な5年の刑を受ける事になる。このようにあらゆる行動において双方が「最適な結果になる行動」をしたはずなのに、全体としては「最適な結果」にする事ができない事がジレンマと言われる所以である。

また、AとBの2人が事前に会って相談できたと仮定すると、双方にとっての「最適な結果」は互いに黙認した場合の懲役2年である。この時、事前に会った2人が「お互いに黙って懲役2年で済ませよう」と口約束をしたとする。本当に双方がその口約束を守れば、2人共懲役2年で済むが、もしAの立場で考えると、Bが黙認すると分かっているのであれば、自分がここで自白してしまえば自分はその場で釈放されてしまう。Aにとって懲役2年を受けるよりはその場で釈放されるほうが圧倒的に得なので、「口約束を破れば釈放されるかもしれない」と考えて、結局Bを裏切る事になる。一方これはBにとっても同じ事が言えるので、Bも口約束を破ってAを裏切る。結果として2人は双方にとって「最適な結果」ではない懲役5年を受ける事になる。

なお、この場合のパレート効率的な組合せは、(協調、協調)、(協調、裏切り)、(裏切り、協調)の3つであり、(裏切り、裏切り) はナッシュ均衡ではあってもパレート効率的ではない。

繰り返し型の囚人のジレンマ

上述したように、2人プレーヤーの囚人のジレンマのゲームを1回しかしない場合は、両者が「裏切り」を選択する。では囚人のジレンマのゲームを繰り返し行った場合はどうなるか。合計の懲役年数が最も小さくなるようにしたい。これは、囚人達がゲームの繰り返し回数を知っているかどうかによって変わる。

ゲームの繰り返し回数を囚人達が双方とも知っていた場合は、全ての回で囚人がともに「裏切り」を選択する事が分かっている。これは状況を最終回から順に帰納法的に考えてみれば分かる（後退帰納法）。

最終回のゲームの後にもうゲームをやらないので、最終回のゲームの戦略が他のゲームの戦略に影響する事はない。よって最終回のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
最終回のゲームでは双方とも必ず「裏切り」を選択するのだから、最終回の一回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようが最終回のゲームには影響しない。よって最終回の一回前のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
以下同様に考える事で、全てのゲームで囚人がともに「裏切り」を選択する事が分かる。

次にゲームの繰り返し回数をいずれの囚人も知らない場合を考える。1980年にロバート・アクセルロッドは、繰り返し型の囚人のジレンマで利得の多くなる戦略を調べるため、様々な分野の研究者から戦略を集めて実験を行った。（ただしこの実験には様々な批判もでている。たとえばKen Binmoreによる批判論文のサーベイ(山形浩生訳)を参照。）実験には14種類の戦略が集まり、アクセルロッドはこれらを総当りで対戦させた。その結果、全対戦の利得の合計が最も高かったのは、アナトール・ラポポートが作成した「しっぺ返し戦略（tit for tat）」であった。「しっぺ返し戦略」とは、最初は「協調」し、以降は、前回相手の出した手をそのまま出す戦略である。

アクセルロッドは、続いて2回目の実験を行った。この実験には、62種類の戦略が集まった。前回の勝者が「しっぺ返し戦略」であることは伝えられていたため、集まった戦略はこれよりも高い利得を得ようと工夫されたものだった。それにもかかわらず、最大の利得を得たのは、またしても「しっぺ返し戦略」であった。

なお、実験の結果は、実験の具体的方法や他の戦略の種類、数にも影響されるため、「しっぺ返し戦略」が常に最強とは限らない。しかし、ある条件下では「しっぺ返し」戦略が「常に裏切り」戦略よりも有効であることを以下のように示すことができる。

例えば、2人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。

Pa/Pb	協調	裏切り
協調	2, 2	0, 3
裏切り	3, 0	1, 1

ゲームが1回きりの場合、前に述べたとおり、ナッシュ均衡は（裏切り, 裏切り）のみである。しかし、ゲームを複数回行う場合、ゲームが次回も続く確率をpとすると、利得は以下のようになる。

Pa/Pb	しっぺ返し	常に裏切り
しっぺ返し	2/(1-p), 2/(1-p)	-1+1/(1-p), 2+1/(1-p)
常に裏切り	2+1/(1-p), -1+1/(1-p)	1/(1-p), 1/(1-p)

この場合、p>0.5において2+1/(1-p)<2/(1-p)となる。すなわち、相手が「しっぺ返し」戦略をとっている時に自分が「常に裏切り」戦略を取る利得がなくなり、（しっぺ返し,しっぺ返し）がナッシュ均衡となる。

繰り返し型の囚人のジレンマゲーム（ノイズあり）

また、ノイズあり「繰り返し型の囚人のジレンマゲーム」というものが、考えられる。ここでノイズとは、「相手が協調しているにも拘らず、なんらかの理由で、裏切ったと解釈されてしまう」（あるいは逆に、裏切っているにも拘らず協調していると思い込む）というものである。

ノイズあり「繰り返し囚人のジレンマゲーム」では、しっぺ返し戦略はもはや最強ではなく、パブロフ戦略が強くなる。これは、前回うまくいったら今回も同じ行動を、前回失敗したら今回はその反対の行動をとるという戦略である。ノイズはどんなに微小であっても、しっぺ返しよりパブロフの方が強いことが理論的に示せる。また、ノイズがあってもなくても社会全体が、突然変異を除き1つの戦略で一様に覆われてしまうことは変わらない。

その他

しっぺ返し戦略とパブロフ戦略は、前回の行動のみから今回の行動を決定するというタイプの戦略であるが、これをもっと以前の情報をもとに今回の行動を決められるように、戦略空間を拡大することを考える。

すると、社会全体がある戦略に収束するのではなく、さまざまな戦略が誕生しては滅んでゆくような終わりなき進化がおこりうることがリンドグレーンによって示された。

現実における囚人のジレンマ

現実世界でも囚人のジレンマないしそれに類似した例を見つける事ができる。例えば核兵器開発では、A国とB国が両方とも核兵器開発を止めれば平和が維持できるにもかかわらず、相手国が裏切って核兵器開発をはじめる恐怖に耐え切れず、双方とも核兵器開発をはじめてしまう（恐怖の均衡）。

また低価格競争でも、A社とB社が両方とも値下げを止めれば利益を維持できるにもかかわらず、相手企業の値下げによりシェアが奪われる恐怖に耐え切れず、双方ともに値下げ合戦をして利益を圧縮してしまう。このように囚人のジレンマは政治・経済の解析にかかせない。

参考文献

Axelrod, Robert (October 1985). The Evolution of Cooperation. Basic Books. ISBN 0465021212 （邦訳 R.アクセルロッド『つきあい方の科学――バクテリアから国際関係まで』松田裕之、ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4623029239。）
Poundstone, William (January 1993). Prisoner's dilemma. Anchor. ISBN 038541580X （邦訳ウィリアム・パウンドストーン『囚人のジレンマ――フォン・ノイマンとゲームの理論』松浦俊輔、青土社、1995年3月。ISBN 4791753607。）

外部リンク

Prisoner's Dilemma （英語） - スタンフォード哲学百科事典「囚人のジレンマ」の項目。

Template:Link FA Template:Link GA Template:Link GA

表話編歴ゲーム理論
定義	非協力ゲーム協力ゲーム標準型ゲーム展開型ゲームベイジアンゲーム簡潔ゲーム（英語版）情報集合信念の階層選好進化ゲームハイパーゲーム（英語版）行動ゲーム
解概念と精緻化	ナッシュ均衡部分ゲーム完全均衡 Mertens-stable equilibrium（英語版）ベイジアン・ナッシュ均衡完全ベイズ均衡摂動完全均衡プロパー均衡 ε均衡相関均衡（英語版、ドイツ語版）逐次均衡準完全均衡進化的安定戦略リスク支配コアシャープレイ値パレート効率性質的応答均衡自己確証均衡強ナッシュ均衡（英語版、ヘブライ語版）マルコフ完全均衡（英語版）戦略的補完性合理化可能性直観的基準
戦略	支配戦略混合戦略（英語版）しっぺ返し戦略トリガー戦略共謀（英語版）後ろ向き帰納法前向き帰納法マルコフ戦略（英語版）主人と奴隷
ゲームのクラス	対称ゲーム（英語版）完全情報完全情報ゲーム完備情報不完備情報ゲーム確実情報同時手番ゲーム逐次手番ゲーム（英語版）繰り返しゲームシグナリングゲームチープトークゼロ和非ゼロ和メカニズムデザイン交渉問題（英語版）確率ゲーム（英語版）大ポアソンゲーム（英語版）非推移的ゲームグローバルゲーム（英語版）特性関数型ゲーム二人零和有限確定完全情報ゲーム
ゲーム	囚人のジレンマ旅人のジレンマ（英語版）協調ゲーム（英語版）チキンゲームムカデゲーム（英語版）ボランティアのジレンマ（英語版）ドル・オークション（英語版）男女の争い（英語版）スタグハントゲームマッチングペニー（英語版）最後通牒ゲームじゃんけん海賊ゲーム（英語版）独裁者ゲーム（英語版）公共財ゲーム（英語版） Blotto games（英語版）消耗戦（英語版）エルファロル・バー問題公平分割行き詰まり（英語版）割り勘のジレンマ Guess 2/3 of the average（英語版）クーン・ポーカー交渉問題（英語版）スクリーニングゲーム（英語版）囚人と帽子のパズル（英語版） Trust game（英語版） Princess and monster game（英語版）モンティ・ホール問題クールノー競争ベルトラン競争シュタッケルベルグ競争
定理	ミニマックス法ナッシュの定理純化定理フォーク定理顕示原理（英語版）アローの不可能性定理
主要人物	ケネス・アローロバート・オーマンケン・ビンモアサミュエル・ボールズメルヴィン・ドレッシャー（英語版）メリル・フラッド（英語版）ドリュー・フューデンバーグ（英語版）ドナルド・ギリースジョン・ハーサニレオニード・ハーヴィッツデイヴィッド・レヴァイン（英語版）ダニエル・カーネマンハロルド・クーンエリック・マスキンジャン＝フランソワ・メルタン（英語版）ポール・ミルグロムオスカー・モルゲンシュテルンロジャー・マイヤーソンジョン・ナッシュジョン・フォン・ノイマンアリエル・ルービンシュタイントーマス・シェリングラインハルト・ゼルテンハーバート・サイモンロイド・シャープレージョン・メイナード＝スミスジャン・ティロールアルバート・タッカーウィリアム・ヴィックリーロバート・ウィルソンペイトン・ヤング（英語版）
関連項目	コモンズの悲劇 Tyranny of small decisions（英語版） All-pay auction（英語版）ゲーム理論におけるゲームの一覧（英語版） Confrontation analysis（英語版）ゲーム理論家の一覧（英語版）数学経済学進化論集団遺伝学オペレーションズリサーチ社会生物学環境社会学クープマンモデル
カテゴリ