囚人のジレンマ

囚人のジレンマ（しゅうじんのジレンマ、英: prisoners' dilemma）とは、ゲーム理論におけるゲームの1つ。お互い協力する方が協力しないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマである^[1]。各個人が合理的に選択した結果（ナッシュ均衡）が社会全体にとって望ましい結果（パレート最適）にならないので、社会的ジレンマとも呼ばれる^[2]。

1950年に数学者のアルバート・タッカーが考案した^[3]。ランド研究所のメリル・フラッド（英語版）とメルビン・ドレシャー（英語版）の行った実験をもとに、タッカーがゲームの状況を囚人の黙秘や自白にたとえたため、この名がついている^[4]。

囚人のジレンマではゲームを無期限に繰り返すことで協力の可能性が生まれる（後述）。囚人のジレンマは、自己の利益を追求する個人の間でいかに協力が可能となるかという社会科学の基本問題であり、経済学、政治学、社会学、社会心理学、倫理学、哲学などの幅広い分野で研究されているほか、自然科学である生物学においても、生物の協力行動を説明するモデルとして活発に研究されている^[5]。

ゲームの基本[編集]

共同で犯罪を行ったと思われる2人の囚人A・Bを自白させるため、検事は囚人A・Bに次のような司法取引をもちかけた^[6]。

本来ならお前たちは懲役5年なんだが、もし2人とも黙秘したら、証拠不十分として減刑し、2人とも懲役2年だ。
もし片方だけが自白したら、そいつはその場で釈放してやろう（つまり懲役0年）。この場合黙秘してた方は懲役10年だ。
ただし、2人とも自白したら、判決どおり2人とも懲役5年だ。

このとき、「2人の囚人A・Bはそれぞれ黙秘すべきかそれとも自白すべきか」というのが問題である。なお2人の囚人A・Bは別室に隔離されており、相談することはできない状況に置かれているものとする。

2人の囚人A・Bの行動と懲役の関係を表（利得表と呼ばれる）にまとめると以下のようになる。表内の (○年, △年) は2人の囚人A・Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄(10年,0年)とは，「Aが黙秘・Bが自白」を選択した場合、Aの懲役は10年、Bの懲役は0年であることを意味する。

	囚人B 黙秘	囚人B 自白
囚人A 黙秘	(2年, 2年)	(10年, 0年)
囚人A 自白	(0年, 10年)	(5年, 5年)

2人の囚人A・Bにとって、「互いに自白」して互いに5年の刑を受けるよりは「互いに黙秘」して互いに2年、合計で4年の刑を受ける方が得である。しかし、2人の囚人が「互いに黙秘」が全体の利益で得であると認識した上で2人の囚人A・Bがそれぞれ自分の利益のみを追求している限り、「互いに黙秘」という結果ではなく「互いに自白」という結果となってしまう。これがジレンマと言われる所以である。このようなジレンマが起こるのは以下の理由による。

まず囚人Aの立場では次のように考えるだろう。

囚人Bが「黙秘」を選んだ場合、自分 (=囚人A) の懲役は2年（「黙秘」を選んだ場合）か0年（「自白」を選んだ場合）だ。だから「自白」を選んで0年の懲役になる方が得だ。
囚人Bが「自白」を選んだ場合、自分 (=囚人A) の懲役は10年（「黙秘」を選んだ場合）か5年（「自白」を選んだ場合）だ。だからやはり「自白」を選んで5年の懲役になる方が得だ。

したがって、囚人Aにとっては，囚人Bがどのように行動するかにかかわらず自白することが最適な選択ということになる。これは囚人Bにとっても同じであるため、囚人Bも囚人Aと同じ考えによって自白することが最適な選択である。このような理由で2人の囚人A・Bは結果的に「互いに自白」という行動をとることとなる。

重要なのは、「囚人Bが自白してしまうのではないか」という懸念や恐怖から囚人Aは自白するわけではなく、囚人Bが黙秘しようが自白しようが囚人Aは合理的に自白する、という点である。

2人の囚人A・Bにとって「互いに黙秘」することがパレート最適であるにもかかわらず，2人の囚人A・Bがそれぞれ合理的に自白するという「互いに自白」という結果はナッシュ均衡ではあってもパレート最適ではない。

2人の囚人A・Bが「互いに黙秘」することを「協調」と言い換え，「どちらかが黙秘しているとして自分だけが自白して釈放してもらおう」とすることを「裏切り」と言い換えたとき，結果的に両者は「裏切り」を選択することとなる。

有限繰り返しゲーム[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合（繰り返しゲーム）における2人の囚人の行動は、彼らがゲームの繰り返し回数を知っているか否かで異なる。

2人の囚人がゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には2人の囚人が全てのゲームで「裏切り」を選択することが知られている^[7]。証明は、最終回のゲームから逆順に以下の帰納法を行うことで示せる（後退帰納法）。以下ゲームの繰り返し回数をn とする。

n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果が二者関係に与える影響を考慮する必要がない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回目のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも2人の囚人はともに「裏切り」を選択する。
以下同様に考えることで、全てのゲームで2人の囚人がともに「裏切り」を選択することが分かる。

無期限繰り返しゲーム[編集]

2人の囚人がゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし，無期限繰り返しゲームではゲームが終了する確定的な期限がないので後退帰納法を適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える^[8]。なお以下では，数学的な説明のために「囚人」を「プレーヤー」という言葉で置き換える。この表は2人のプレーヤー $p_{a}$ と $p_{b}$ が「協調」か「裏切り」かの戦略を選ぶときの、１回ごとの利得を示す。並んだ数字の左側は $p_{a}$ の利得、右側は $p_{b}$ の利得である。なお、「利得」とは得られる利益を意味し、多い方がよい。

$p_{a}\backslash p_{b}$	協調	裏切り
協調	$2\backslash 2$	$0\backslash 3$
裏切り	$3\backslash 0$	$1\backslash 1$

そして次のトリガー戦略を考える。

はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとりつづけ、そうでなければ協調する。

お互いにこのトリガー戦略をとっているときに自分がこの戦略から逸脱するインセンティブがなければ、トリガー戦略がナッシュ均衡になることが示される。

最も簡単なケースは、プレーヤーが将来を割り引かず、常に明日のことを今日と同じぐらい大事に思う場合である^[9]。ゲームを無限に何度も繰り返すものとして、各プレイヤーが無限回の利得を平均した平均利得を最大化すると想定しよう^[10]。互いにトリガー戦略をとると互いに協調しつづけることになるので毎回の利得は2であり平均利得も2である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回は3の利得を手に入れるがその後は相手も裏切るので自分の利得はせいぜい1にしかならない。1回だけ利得3でその後ずっと毎回利得1なので平均利得は1になるが、これはトリガー戦略の平均利得2を下回る。つまりプレイヤーはトリガー戦略から逸脱すると長い目でみて損をする。したがって互いにトリガー戦略から逸脱せず協調しつづけるのがナッシュ均衡になる。これにより協調が生まれる可能性が示される。

ナッシュ均衡を生み出す戦略はトリガー戦略のみに限らない。たとえば最初は協調し以降は前回相手の出した手をそのまま出すしっぺ返し戦略も、逸脱するインセンティブがないので均衡となる^[11]。このほか協調を実現する均衡は無数に存在する。また、互いに裏切り続けるのも均衡として残る。このように無数の均衡が存在することはフォーク定理で示される^[12]。

将来を割り引くケース[編集]

上記の平均利得を最大化するという設定は、プレイヤーが無限に忍耐強くて将来を割り引かないことを意味しており、現実的とはいえない^[13]。プレイヤーが将来を割り引く場合については、次の通りである^[14]。

プレイヤーは将来の利得を一定の割引因子 $\delta \in (0,1)$ で割り引いていくものとし、そうして割り引いた割引利得の総和を最大化するものと想定しよう。お互いトリガー戦略をとると互いに協調しつづけるので、毎回の利得は2であり割引利得の総和は

2+2\delta +2\delta ^{2}+\ldots ={\frac {2}{1-\delta }}=S_{1}

である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回で利得3をとるが、その後の利得はせいぜい1であるので、割引利得の総和は

3+1\delta +1\delta ^{2}+\ldots =3+{\frac {1\delta }{1-\delta }}=S_{2}

である。すなわち， $\delta \geq 1/2$ であれば $S_{1}\geq S_{2}$ となるので，裏切っても割引利得の総和が増えず、裏切るインセンティブがないので、トリガー戦略はナッシュ均衡になる。すなわち割引因子が十分に高い場合に協調が生まれる可能性がある。

ゲームが終わるかもしれないケース[編集]

ここまではゲームを永久につづける無限（infinitely）繰り返しゲームを考えたが、これは現実的とはいえないので、その代わりに無期限（indefinitely）繰り返しゲームを考える^[13]。無期限繰り返しゲームとは、ゲームが確定的に終わる期限はないが、ゲームが確率的に終わる可能性を想定する。ゲームの終わる確率が十分に小さければトリガー戦略がナッシュ均衡になり、協調の可能性が示される。

不完全観測のケース[編集]

ここまでは相手の行動を完全に観測できると想定した。現実には「相手に協調してもらったのに裏切られたと誤解する」「裏切られたのに気付かない」というように、他人の行動を不完全にしか観測できないことが多い。このような不完全観測のもとでの無期限繰り返し囚人のジレンマの理論は近年大きく発展している^[15]。

不完全観測のケースでは、相手の他のプレイヤーの行動を不完全ながら表すシグナルを観察できるものとし、誰もが観察できるシグナルがある場合を公的不完全観測、各人自分しか見られないシグナルを観察する場合を私的不完全観測という^[16]。

公的不完全観測のケースは比較的分析が容易である^[17]。完全観測下のトリガー戦略に似た戦略で協調が生まれる^[18]。フォーク定理は1994年にきわめて緩い条件のもとで証明された^[19]。

一方、私的不完全観測のケースは分析が困難で、いまだ研究途上にある^[17]。私的不完全観測では協調を生み出す戦略を見つけること自体が難問で、長い間ゲーム理論の未解決問題として有名であった^[20]。この難問に初めて答えが出たのは1997年のことで、きわめて高い精度で人の行動を私的観測できる場合の囚人のジレンマで協調を生み出す戦略が見つかった^[20]。また、各期の終わりに集まってコミュニケーションをとれる場合に限っていえば、1998年に一定の緩い条件のもとでフォーク定理が証明された^[21]。コミュニケーションを取れない場合については、相手が今までみてきたことを全く気にする必要のないような特殊な均衡をつくる信念不問アプローチが多くの成果を挙げている^[21]。2002年には信念不問アプローチにより囚人のジレンマの均衡を簡単につくる方法が発見され、本格研究が進展し始めた^[21]。そして2012年、ついに私的不完全観測下のフォーク定理がかなり緩い条件のもとで証明された^[22]。

現実における囚人のジレンマ[編集]

企業の値下げ競争、公共財の供給、環境問題、共有資源の管理、自由貿易や軍縮のための国際協力など、現実社会における事象にも囚人のジレンマを使って説明できるものは多くある^[2]。

それどころか、囚人のジレンマはあらゆる商談についてまわる^[23]。商品交換の機会は典型的な1回限りの囚人のジレンマの状況を含む^[24]。取引によって互いに利益を得ることができるが、取引相手を騙すことで自分の利益を増やすことができるからである。具体的には、買い手が期日までに代金を支払わない、売り手が商品を引き渡さない、不良品を売りつける、といった裏切りである。取引が実現するには裏切りをコントロールする仕組みが必要だが、その仕組みは取引の繰り返しによっても確保される。取引相手が裏切ったら将来の取引をやめるという脅しをかけあうことで裏切りを阻止するのである。

アクセルロッドに対する批判[編集]

政治学者のアクセルロッドは、無期限繰り返し囚人のジレンマの競技会を企画し、各分野の社会科学者からコンピュータ・プログラムを募って対戦させた。その結果、しっぺ返し戦略が優勝した。さらにアクセルロッドが参加プログラムについて進化シミュレーションを走らせたところ、生き残った戦略のなかでしっぺ返し戦略の数が最大であった。アクセルロッドはこれらの結果にもとづいて、しっぺ返し戦略は善良・報復・寛容・明快を兼ね備えており人間の協力全般にとって適切なパラダイムである、と主張した。この主張を鵜呑みにする社会科学者は少なくない^[25]。

アクセルロッドの研究は大きな反響を呼び、これ以降、進化生物学、社会学、政治学、コンピュータ科学などにおいて、さまざまな戦略を戦わせて、どの戦略が生き残るかをみるコンピュータ・シミュレーションが行われるようになった。このようなアクセルロッド流シミュレーション研究は、均衡の存在を数学で証明する本来のゲーム理論とほとんど関係がない^[26]。

アクセルロッドの研究はゲーム理論研究者の間で評判がよくなかった^[26]。ケン・ビンモアらゲーム理論研究者はアクセルロッドを次のように批判する。

アクセルロッドの研究のせいで、かなりトンデモない（astonishing）主張が広まってしまった。しっぺ返しはあらゆるシミュレーション環境で最適なのだとか、ひどいのになると、しっぺ返しは人類の複雑な社会関係における協力の基礎であり生物の社会的協力の進化を全て説明できるのだとかいう主張である。^[27]
アクセルロッドは、トーナメントの結果から長期的人間関係について一般的な教訓を導いているが、そのような一般化が可能であるという理論的根拠を示していない。根拠のない一般化は危険である^[28]。
アクセルロッドはうっかり有限繰り返し型の囚人のジレンマの進化シミュレーションを走らせてしまった。有限繰り返し囚人のジレンマは必ず裏切りあいの結果になるので、シミュレーションを走らせる必要はない。勝つ戦略は決して協力しない。^[29]。
アクセルロッドの得た結果はそのシミュレーション環境に依存している。アクセルロッドのシミュレーションで生き残った戦略は６つあり、そのうちしっぺ返し戦略の割合は1/6を少し超える程度にすぎない。戦略の初期数を変えると、生き残るしっぺ返し戦略の数は最大にならない^[30]。
アクセルロッドがしっぺ返し戦略に見出したという善良・報復・寛容・明快の利点なるものは、一つ一つ検討してみると、どれも妥当なものではない^[30]。
無期限囚人のジレンマで協力の可能性がありうることは、アクセルロッドの研究の何十年もまえにフォーク定理で証明されている。ゲーム理論を全く知らなかったアクセルロッドはフォーク定理の一部を再発見したにすぎない。^[31]

アクセルロッドはゲーム理論からの批判を意図的に無視し続けているという^[31]。

なお、ゲーム理論においてアクセルロッドの業績が全否定されているわけではない。ビンモアによると、アクセルロッドの貢献はただ一点。フォーク定理が存在を証明する無数の均衡の中から特定の均衡を選ぶことが重要であると気づかせてくれた点にある。進化ゲームによる均衡選択は今やゲーム理論の均衡選択問題で標準的なアプローチになっている。アクセルロッドはその先駆者である、という^[31]。

代表的な戦略[編集]

以下にアクセルロッドの競技会に参加した戦略の例を記す^[32]。

しっぺ返し戦略 (Tit For Tat): 初回は協調を選択し、2回目以降は前回に相手が出した手と同じ手を出す。; アクセルロッドが呼びかけて開催された戦略をリーグ戦方式で対戦させる選手権では2回優勝しているが、2004年の選手権では主人と奴隷戦略に敗れている。
逆しっぺ返し戦略 (Reverse Tit For Tat): 初回は裏切りを選択し、2回目以降は前回に相手が出した手と同じ手を出す。
堪忍袋戦略 (Tit-For-Two-Tats): 初回は協調を選択し、相手が2回連続で裏切りを選んだとき、次回に裏切りを出す。
フリードマン戦略 (Friedman): 初回は協調を選択し、相手が1回でも裏切りを選んだら、以後は最後まで裏切りを出す。
ヨッス戦略 (Joss): 初回は協調を選択し、2回目以降は相手が前回に裏切りを選んでいたら裏切りを出す。前回に協調を出していたら、90%の確率で協調を、10%の確率で裏切りを出す。
テュロック戦略 (Tullock): 最初の10回は協調を選択する。以降は、最初の10回の間に相手が協調を選んだ頻度より10%低い確率で協調を出す。
デービス戦略 (Davis): 最初の10回は協調を選択する。その間、相手が1回でも裏切りを出していれば、以降は裏切りを出す。
でたらめ戦略 (Random): 毎回、協調を出すか裏切りを出すか無作為に決める。
悪人戦略 (All-D): 常に裏切りを出す。
善人戦略 (All-C): 常に協調を出す。

脚注[編集]

[脚注の使い方]

^ 渡辺 (2008, pp. 25–27)。
^ ^a ^b 岡田 (2008, p. 87、pp.102–103)。
^ 岡田 (2008, p. 88)。
^ Osborne & Rubinstein (1994, p. 30)
^ 岡田 (2008, p. 102)。
^ 岡田 (2008, pp. 87–88)。量刑などの細かい設定は異なる。
^ 渡辺 (2008, pp. 296–301)。
^ 利得表の数値はビンモア (2015, p. 98)図7による。
^ ビンモア (2015, p. 16)。
^ ビンモア (2015, pp. 121–123)。またはBinmore (2004)、7. Folk theorem。
^ 岡田 (2008, pp. 144–147)。
^ 岡田 (2008, pp. 147–151)。
^ ^a ^b ビンモア (2015, p. 124)。またはBinmore (2004)の"What can go wrong?"の節。
^ 岡田 (2008, pp. 135–146)。
^ 神取 (2015, p. 55)。
^ 神取 (2015, p. 58)。
^ ^a ^b 神取 (2015, p. 59)。
^ 神取 (2015, p. 61)。
^ 神取 (2015, p. 69)。
^ ^a ^b 神取 (2015, p. 72)。
^ ^a ^b ^c 神取 (2015, p. 75)。
^ 神取 (2015, pp. 78–79)
^ シグムンド (1996, p. 384)。
^ 青木 (2003, pp. 67–70)。以下この段落はこれによる。
^ この段落はビンモア (2015, p. 119)およびBinmore (2004)の"Axelrod’s Olympiad"を参照した。アクセルロッド本人の著書はアクセルロッド (1998)（原著1984年）である。
^ ^a ^b 神取 (2015, p. 30)。
^ Binmore (1998)で引用される J. Martinez-Coll and J. Hirshleifer (1991)"The limits of reciprocity"Rationality and Society 3, p35-64。
^ 神取 (2015, pp. 30–31)。著名なゲーム理論研究者「M教授」の意見を神取が解釈したもの。
^ Binmore (1998)で紹介される J. Nachbar (1992) "Evolution in the finitely repeated Prisoners' Dilemma," Journal of Economic Behavior and Organization 19, p307-326。
^ ^a ^b ビンモア (2015, pp. 119–120)およびBinmore (2004)の"Axelrod’s Olympiad"。
^ ^a ^b ^c Binmore (1998)。ケン・ビンモア. 「アクセルロッド『対立と協調の科学』書評：「しっぺ返し」はそんなにすごいものではありません」. ELSE, Economics Department, University College London. (1998, JASSS vol 1, no 1.).
^ 光辻克馬 (2016年9月16日). “囚人のジレンマ選手権モデル”. 構造計画研究所. 2017年5月23日閲覧。
^ グライフ (2009, pp. 354–361)
^ 山岸 (2000, pp. 48–49)。
^ 山岸 (2000, pp. 17–18)。
^ 武藤 (2005)。
^ 武藤 (2005)で紹介される Raub,W.,(1988) "problematic Social Situation and the Large Number of Dilemma: A Game-theoretical Analysis," Journal of Mathematical Sociology 13(4), pp311-357や、永田えりこ（1988）「自由と効率」『方法と理論』3(1),pp43-56。
^ 武藤 (2005)で紹介される Taylor,M.(1987)Possibility of　Cooperation, Cambridge University Pressや、木村邦博（2002）『大集団のジレンマ』ミネルヴァ書房。
^ Nowak (2006)の Direct Reciprocity 。以下この節はこれによる。

参考文献[編集]

A.ラパポート, A.M.チャマー著、廣松毅, 平山朝治, 田中辰雄訳『囚人のジレンマ―紛争と協力に関する心理学的研究』啓明社、1983年1月。ISBN 978-4906143078。
青木昌彦著、滝沢弘和・谷口和弘訳『比較制度分析に向けて』（新装版）NTT出版、2003年10月。ISBN 978-4-7571-2119-5。
アクセルロッド, ロバート著、松田裕之訳『つきあい方の科学――バクテリアから国際関係まで』ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4-623-02923-9。
- 原書 Axelrod, Robert (October 1984). The Evolution of Cooperation. Basic Books. ISBN 0465021212

岡田章『ゲーム理論・入門――人間社会の理解のために』有斐閣〈有斐閣アルマ〉、2008年8月。ISBN 978-4-641-12362-5。
神取道宏『人はなぜ協調するのか―くり返しゲーム理論入門―』三菱経済研究所、2015年7月。ISBN 978-4-943852-56-8。
グライフ, アブナー著、岡崎哲二・神取道宏監訳『比較歴史制度分析』NTT出版〈叢書制度を考える〉、2009年12月。ISBN 978-4-7571-4124-7。
シグムンド, カール著、富田勝訳『数学でみた生命と進化――生き残りゲームの勝者たち』講談社〈講談社ブルーバックス〉、1996年3月（原著1993年）。ISBN 978-4-06-257111-1。
ビンモア, ケン著、栗林寛幸訳『正義のゲーム理論的基礎』NTT出版〈叢書《制度を考える》〉、2015年5月。ISBN 978-4-7571-2233-8。
- 原書 Binmore, K. (2005). Natural justice. Oxford University Press. ISBN 978-0-19-517811-1
武藤正義 (2005年). “社会的ジレンマと協力概念：フリーライドの視点によるN人ゲームの構造分析I”. 『秩序問題への進化ゲーム理論的アプローチ』（科学研究費補助金研究成果報告書）. pp. 75–97. date=2015年11月閲覧。
山岸俊男『社会的ジレンマ―「環境破壊」から「いじめ」まで』PHP研究所〈PHP新書〉、2000年6月。ISBN 978-4-5696-1174-7。
渡辺隆裕『ゼミナール　ゲーム理論入門』日本経済新聞出版社、2008年4月。ISBN 978-4-532-13346-7。
Binmore, K. (1998). “Book Review: The Complexity of Cooperation by Robert Axelrod”. Journal of Artificial Societies and Social Simulation 1 (1).
- 山形浩生訳. “アクセルロッド『対立と協調の科学』書評：「しっぺ返し」はそんなにすごいものではありません”. date=2015年11月閲覧。
Binmore, K. (2004). “Reciprocity and the Social Contract”. Politics, Philosophy and Economics (SAGE Publications Ltd) 3 (1): 5–35. 　※ビンモア（2015）の原著 Binmore (2005) Natural Justice の抜粋。
Nowak, M. (2006). “Five Rules for the Evolution of Cooperation”. Science (www.sciencemag.org) 314: 1560-1563.
Osborne, M.; Rubinstein, A. (1994). A course in game theory. MIT Press. ISBN 0-262-65040-1. MR1301776. Zbl 1194.91003

外部リンク[編集]

Prisoner's Dilemma （英語） - スタンフォード哲学百科事典「囚人のジレンマ」の項目。
『囚人のジレンマ』 - コトバンク

[1] 渡辺 (2008, pp. 25–27)。

[:5-2] 岡田 (2008, p. 87、pp.102–103)。

[3] 岡田 (2008, p. 88)。

[4] Osborne & Rubinstein (1994, p. 30)

[:1-5] 岡田 (2008, p. 102)。

[6] 岡田 (2008, pp. 87–88)。量刑などの細かい設定は異なる。

[7] 渡辺 (2008, pp. 296–301)。

[8] 利得表の数値はビンモア (2015, p. 98)図7による。

[9] ビンモア (2015, p. 16)。

[10] ビンモア (2015, pp. 121–123)。またはBinmore (2004)、7. Folk theorem。

[11] 岡田 (2008, pp. 144–147)。

[12] 岡田 (2008, pp. 147–151)。

[:2-13] ビンモア (2015, p. 124)。またはBinmore (2004)の"What can go wrong?"の節。

[14] 岡田 (2008, pp. 135–146)。

[15] 神取 (2015, p. 55)。

[16] 神取 (2015, p. 58)。

[:6-17] 神取 (2015, p. 59)。

[18] 神取 (2015, p. 61)。

[19] 神取 (2015, p. 69)。

[:7-20] 神取 (2015, p. 72)。

[:8-21] 神取 (2015, p. 75)。

[22] 神取 (2015, pp. 78–79)

[23] シグムンド (1996, p. 384)。

[24] 青木 (2003, pp. 67–70)。以下この段落はこれによる。

[25] この段落はビンモア (2015, p. 119)およびBinmore (2004)の"Axelrod’s Olympiad"を参照した。アクセルロッド本人の著書はアクセルロッド (1998)（原著1984年）である。

[:9-26] 神取 (2015, p. 30)。

[27] Binmore (1998)で引用される J. Martinez-Coll and J. Hirshleifer (1991)"The limits of reciprocity"Rationality and Society 3, p35-64。

[28] 神取 (2015, pp. 30–31)。著名なゲーム理論研究者「M教授」の意見を神取が解釈したもの。

[29] Binmore (1998)で紹介される J. Nachbar (1992) "Evolution in the finitely repeated Prisoners' Dilemma," Journal of Economic Behavior and Organization 19, p307-326。

[:4-30] ビンモア (2015, pp. 119–120)およびBinmore (2004)の"Axelrod’s Olympiad"。

[:3-31] Binmore (1998)。ケン・ビンモア. 「アクセルロッド『対立と協調の科学』書評：「しっぺ返し」はそんなにすごいものではありません」. ELSE, Economics Department, University College London. (1998, JASSS vol 1, no 1.).

[32] 光辻克馬 (2016年9月16日). “囚人のジレンマ選手権モデル”. 構造計画研究所. 2017年5月23日閲覧。

[33] グライフ (2009, pp. 354–361)

[34] 山岸 (2000, pp. 48–49)。

[35] 山岸 (2000, pp. 17–18)。

[36] 武藤 (2005)。

[37] 武藤 (2005)で紹介される Raub,W.,(1988) "problematic Social Situation and the Large Number of Dilemma: A Game-theoretical Analysis," Journal of Mathematical Sociology 13(4), pp311-357や、永田えりこ（1988）「自由と効率」『方法と理論』3(1),pp43-56。

[38] 武藤 (2005)で紹介される Taylor,M.(1987)Possibility of　Cooperation, Cambridge University Pressや、木村邦博（2002）『大集団のジレンマ』ミネルヴァ書房。

[39] Nowak (2006)の Direct Reciprocity 。以下この節はこれによる。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

表話編歴ゲーム理論
定義	非協力ゲーム協力ゲーム標準型ゲーム展開型ゲームベイジアンゲーム簡潔ゲーム（英語版）情報集合信念の階層選好進化ゲームハイパーゲーム（英語版）行動ゲーム
解概念と精緻化	ナッシュ均衡部分ゲーム完全均衡 Mertens-stable equilibrium（英語版）ベイジアン・ナッシュ均衡完全ベイズ均衡摂動完全均衡プロパー均衡 ε均衡相関均衡（英語版、ドイツ語版）逐次均衡準完全均衡進化的安定戦略リスク支配コアシャープレイ値パレート効率性質的応答均衡自己確証均衡強ナッシュ均衡（英語版、ヘブライ語版）マルコフ完全均衡（英語版）戦略的補完性合理化可能性直観的基準
戦略	支配戦略混合戦略（英語版）しっぺ返し戦略トリガー戦略共謀（英語版）後ろ向き帰納法前向き帰納法マルコフ戦略（英語版）主人と奴隷
ゲームのクラス	対称ゲーム（英語版）完全情報完全情報ゲーム完備情報不完備情報ゲーム確実情報同時手番ゲーム逐次手番ゲーム（英語版）繰り返しゲームシグナリングゲームチープトークゼロ和非ゼロ和メカニズムデザイン交渉問題（英語版）確率ゲーム（英語版）大ポアソンゲーム（英語版）非推移的ゲームグローバルゲーム（英語版）特性関数型ゲーム二人零和有限確定完全情報ゲーム
ゲーム	囚人のジレンマ旅人のジレンマ（英語版）協調ゲーム（英語版）チキンゲームムカデゲーム（英語版）ボランティアのジレンマ（英語版）ドル・オークション（英語版）男女の争い（英語版）スタグハントゲームマッチングペニー（英語版）最後通牒ゲームじゃんけん海賊ゲーム（英語版）独裁者ゲーム（英語版）公共財ゲーム（英語版） Blotto games（英語版）消耗戦（英語版）エルファロル・バー問題公平分割行き詰まり（英語版）割り勘のジレンマ Guess 2/3 of the average（英語版）クーン・ポーカー交渉問題（英語版）スクリーニングゲーム（英語版）囚人と帽子のパズル（英語版） Trust game（英語版） Princess and monster game（英語版）モンティ・ホール問題クールノー競争ベルトラン競争シュタッケルベルグ競争
定理	ミニマックス法ナッシュの定理純化定理フォーク定理顕示原理（英語版）アローの不可能性定理
主要人物	ケネス・アローロバート・オーマンケン・ビンモアサミュエル・ボールズメルヴィン・ドレッシャー（英語版）メリル・フラッド（英語版）ドリュー・フューデンバーグ（英語版）ドナルド・ギリースジョン・ハーサニレオニード・ハーヴィッツデイヴィッド・レヴァイン（英語版）ダニエル・カーネマンハロルド・クーンエリック・マスキンジャン＝フランソワ・メルタン（英語版）ポール・ミルグロムオスカー・モルゲンシュテルンロジャー・マイヤーソンジョン・ナッシュジョン・フォン・ノイマンアリエル・ルービンシュタイントーマス・シェリングラインハルト・ゼルテンハーバート・サイモンロイド・シャープレージョン・メイナード＝スミスジャン・ティロールアルバート・タッカーウィリアム・ヴィックリーロバート・ウィルソンペイトン・ヤング（英語版）
関連項目	コモンズの悲劇 Tyranny of small decisions（英語版） All-pay auction（英語版）ゲーム理論におけるゲームの一覧（英語版） Confrontation analysis（英語版）ゲーム理論家の一覧（英語版）数学経済学進化論集団遺伝学オペレーションズリサーチ社会生物学環境社会学クープマンモデル
カテゴリ

典拠管理データベース
全般	FAST
国立図書館	スペインフランス BnF data ドイツイスラエルアメリカ
その他	IdRef 2