囚人のジレンマ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

囚人のジレンマ(しゅうじんのジレンマ、英:Prisoner's Dilemma)とは、ゲーム理論における非協力ゲームの1つ。「互いに協調する方が裏切り合うよりもよい結果になることが分かっていても、皆が個人の利得を優先している状況下では、互いに裏切りあってしまう」というジレンマを指す。特に公共経済学厚生経済学などのミクロ経済学分野や、経営戦略論で研究される概念である。また、社会心理学行動心理学的要素が強いため、近年では行動経済学の分野でも研究が進んでいる。

概要[編集]

非協力ゲームでは、相反する個人合理的な選択が相互的に収束する均衡点(ナッシュ均衡)が必ずしもパレート最適とならないことが知られているが、そのことを強調するためにアメリカ合衆国ランド研究所メリル・フラッド (Merrill Flood) とメルビン・ドレシャー (Melvin Dresher) が1950年に考案し、顧問のアルバート・W・タッカー (A.W.Tucker) が提唱した概念である。ゲーム・プレイヤーの非協力関係を「囚人」の「自白」の可否判断に例えたため、この名がついている。

非協力ゲームでは、一見するとナッシュ均衡がパレート最適を実現するゲームであっても、利得行列の変数を変えればパレート最適が崩れることがある(詳細は「#現実における囚人のジレンマ」を参照)。これとは逆に、パレート最適が実現しないはずの「囚人のジレンマ」も、利得行列の設定者を警察検事から組織犯罪利権団体のボスに変更して変数を変えれば、パレート最適が実現してしまうという社会的にみて危険な結果をもたらす。このため、「囚人のジレンマ」のゲーム理論は「社会的ジレンマ」のゲーム理論とも呼ばれている。

「囚人のジレンマ」のゲームは「赤黒ゲーム」や「win-winの関係」といった呼び方で、自己啓発セミナーマルチ商法を通して、1970年代に一般にも知られるようになっていった。セミナー内容の概要を開示したくない自己啓発セミナーや、マージンの配分の詳細を事前に知られたくないマルチ商法と、「自白」の可否というゲームの例えがうまく合致したためである。ただし、ゲームの参加者がパレート最適を実現しないことに対して、ゲーム主催者が組織犯罪や利権団体のボスのように参加者を手厳しく批判するという逆説的なゲームに改変され使用された。

公共経済学や厚生経済学などの学術分野で「囚人のジレンマ」のゲーム理論が扱われるようになったのは、囚人に擬せられる者たちが多重ルールの下で「win-winの関係」にならない施策を研究するためであり、それが経済学全般に広く認知されるにつれて、囚人相互のパレート最適を寓意する「win-winの関係」という言葉はエコノミストの間では使われなくなっていった[1]。しかし、ゲーム理論一般の知識に欠ける他分野の学者政治家文化人、中小企業経営者などの中には今日でもときどき「win-winの関係」という言葉を使う者がいる[2]

ゲームの基本[編集]

共同で犯罪を行ったと思われる囚人A、Bを自白させるため、警官は2人に以下の条件を伝えた。

  • もし、お前らが2人とも黙秘したら、2人とも懲役2年だ。
  • だが、お前らのうち1人だけが自白したらそいつはその場で釈放してやろう(つまり懲役0年)。この場合自白しなかった方は懲役10年だ。
  • ただし、お前らが2人とも自白したら、2人とも懲役5年だ。

この時、2人の囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。なお彼ら2人は別室に隔離されており、2人の間で強制力のある合意を形成できない(例えば、自分だけが釈放されるように相方を脅迫したり、二人共黙秘するような契約書をかわしたりすることができない)状況に置かれているとする。

囚人A、Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると、以下のようになる。表内の(○年、△年)は囚人A、Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄はA、Bがそれぞれ協調・裏切りを選択した場合、A、Bの懲役がそれぞれ10年、0年であることを意味する。

囚人B 協調 囚人B 裏切り
囚人A 協調 (2年、2年) (10年、0年)
囚人A 裏切り (0年、10年) (5年、5年)

この場合の(裏切り、裏切り) はナッシュ均衡ではあってもパレート最適ではない。

ゲームの解説[編集]

囚人2人にとって、互いに裏切り合って5年の刑を受けるよりは互いに協調し合って2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切り合うという結末を迎える。これがジレンマと言われる所以である。

このようなジレンマが起こるのは以下の理由による。まずAの立場で考えると、Aは次のように考えるだろう。

  1. Bが「協調」を選んだ場合、自分 (=A)の懲役は2年(「協調」を選んだ場合)か0年(「裏切り」を選んだ場合)だ。だから「裏切り」を選んで0年の懲役になる方が得だ。
  2. Bが「裏切り」を選んだ場合、自分 (=A)の懲役は10年(「協調」を選んだ場合)か5年(「裏切り」を選んだ場合)だ。だからやはり「裏切り」を選んで5年の懲役になる方が得だ。

以上の議論により、AにとってはBがどのような行動をとるかによらず、Bを裏切るのが最適な選択ということになる。よってAはBを裏切ることになる。

以上の事情はBにとっても同じであるため、BもAと同一の考えによってAを裏切るのが最適な選択である。したがって実現する結果は(裏切り, 裏切り)、すなわち両者とも5年の懲役となる。

重要なのは、相手に裏切られるかもしれないという懸念や恐怖から自分が裏切るのではなく、相手が黙秘しようが裏切ろうが自分は裏切ることになるという点である。このため仮に事前に相談できてお互い黙秘をすると約束していたとしても、(それに拘束力が無い限りは)裏切ることになる。

有限回繰り返し型の囚人のジレンマ[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合における囚人達の行動は、彼らがゲームの繰り返し回数を知っているか知っていないかで異なる。

囚人たちがゲームの繰り返し回数を知っている場合は有限回繰り返し型の囚人のジレンマと呼ばれ、この場合には囚人たち二人が全てのゲームで「裏切り」を選択することが知られている。証明は、最終回のゲームからから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。

  • n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果がそれ以前に行ったn-1 個のゲームの戦略に影響することはない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
  • n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
  • 以下同様に考えることで、全てのゲームで囚人がともに「裏切り」を選択することが分かる。

無限回繰り返し型の囚人のジレンマ[編集]

囚人たちがゲームの繰り返し回数を知らない場合は無限回繰り返し型の囚人のジレンマと呼ばれる。ただし、「無限回繰り返し型」という名称ではあるが本当に無限回ゲームを行うわけではなく、以下のような状況を指す:

  • 各ゲームが終わる度に(裏が出る確率が事前に定められた値p である)コインを振り、コインが表であればもう一度ゲームを行い、そうでなければゲームを終了する。

ここで確率p割引因子と呼ばれる。

通常の経済現象において無限回繰り返すものはないが、割引因子はゲームが終わる確率であるので、これは繰り返し回数をいずれの囚人も知らず、いつ終わるかわからない状況ともみることができる。

有限回繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし無限回繰り返しゲームには最終回のゲームというものは無いので後退帰納法が適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得票で表される囚人のジレンマゲームを考える。以下の表は2人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。

Pa/Pb 協調 裏切り
協調 2, 2 0, 3
裏切り 3, 0 1, 1

上述のゲームにおいて、例えば次のような戦略(トリガー戦略)を考える:

  • はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとり続ける。

お互いにこの戦略をとっているときに自分が裏切るインセンティブがあるかを、現時点とそれ以降のゲームで得られる総利得の期待値で考える。自分が裏切った場合、裏切った時点で利得3が得られ、その後の各ゲームでは相手も裏切るので利得1が入る。ゲームがあとn回続く確率はpnなので、総利得の期待値は以下のようになる:

3+p+p^2+\ldots=\frac{3+p}{1-p}

一方自分が協調し続けた場合、相手も協調し続けるので各ゲームで利得2が得られる。よってこの場合の総利得の期待値は

2+2p+2p^2+\ldots=\frac{2p}{1-p}

である。従ってp>3/4のとき、裏切りよりも協調の時のほうが総利得の期待値が大きいので、お互い協調を選択することとなる。よってトリガー戦略から逸脱する行動をとることはないので、トリガー戦略は均衡となる。

このような均衡を生み出す戦略はトリガー戦略のみに限らない。例えば最初は協調し以降は前回相手の出した手をそのまま出す戦略(しっぺ返し戦略)も、逸脱するインセンティブがないので均衡となることを示される。このように、割引因子が十分に1に近い場合(すなわち将来の利得を高く評価する場合)、協調を実現するような均衡は無数に存在することを示すことができる(フォーク定理)。

現実における囚人のジレンマ[編集]

現実世界における事象にも囚人のジレンマを使って説明できるものが多くあるため、このジレンマは政治経済の解析にかかせない。例えば、A国とB国が両方とも軍隊を廃止すれば費用をかけず平和を維持できるのに、自国の利益を優先して双方とも大きな費用のかかる軍隊を持ってしまう。

低価格が市場の魅力となっている業界では、A社とB社がともに価格を維持すれば収益が安定するにもかかわらず、自社の競争優位を優先する状況下では値下げ競争が起きることがある。その場合、市場シェアの面ではナッシュ均衡がパレート最適を実現するが、消費者行動がゲーム上の警察のように機能するため利潤の面では囚人のジレンマに陥る。

その一方、囚人のジレンマのような状況下でも協調が実現する経済現象も存在する。例えば談合など、相手の行動に拘らず自分が裏切れば利得を得ることができるのに、実際には協調し続けるような状況があげられる。このような状況は、談合はいつ終わるか分からないので無限回繰り返しゲームと解釈することで協調を説明することができる。

脚注[編集]

  1. ^ 竹中平蔵のように2010年代に入っても「win-winの関係」という言葉を使うエコノミストはいる。竹中平蔵のポリシー・スクール『2012年5月17日 ネクスト11から成長国市場へ』. 日本経済研究センター.
  2. ^ 安倍首相のスピーチライターである内閣官房参与谷口智彦が好んでこの言葉を用いたため、第2次安倍内閣初期に安倍もときどき口にした。安倍首相のスピーチ、海外ではご法度ワードも スピーチライターを登用する本当の理由. (2013年10月23日) The Huffington Post Japan. 「日本とASEAN・Always in tandem-「3本の矢」で一層のWin-Win関係へ」に関する講演. (平成25年7月26日) 首相官邸.

参考文献[編集]

  • Axelrod, Robert (October 1985). The Evolution of Cooperation. Basic Books. ISBN 0465021212. (邦訳 R.アクセルロッド 『つきあい方の科学――バクテリアから国際関係まで』 松田裕之、ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4623029239
  • Poundstone, William (January 1993). Prisoner's dilemma. Anchor. ISBN 038541580X. (邦訳 ウィリアム・パウンドストーン 『囚人のジレンマ――フォン・ノイマンとゲームの理論』 松浦俊輔、青土社、1995年3月。ISBN 4791753607

関連項目[編集]

外部リンク[編集]