質的応答均衡

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

質的応答均衡(しつてきおうとうきんこうmQuantal response equilibrium: QRE)はmゲーム理論における解概念のひとつ。リチャード・マッケルヴィ英語版トーマス・パルフレイ英語版によってはじめて導入され、限定合理性のもとでの均衡概念を与えた。質的応答均衡は均衡の精緻化ではなく、ナッシュ均衡とはかなり違った結果を与えている。質的応答均衡は離散的な戦略についてのみ定義されているが、連続な戦略についても類似のものがある。

質的応答均衡において、プレーヤーたちはどの純粋戦略をプレーするか選ぶにあたって誤りを犯すものと仮定されている、特定の戦略が選ばれる確率は、その戦略がもたらす利得の大きさと正の相関をもつ。言いかえると、犠牲の大きい誤りは起こりにくい。

この均衡は信念が実現することから生ずる。プレーヤーの利得は、戦略の上の他のプレーヤーの確率分布に関する信念にもとづいて計算される。均衡においては、プレーヤーの信念は正しい。

データへの応用[編集]

実際のゲームのプレー(とくに、実験室実験)から得られたデータを解析すると、ナッシュ均衡は厳しいのかもしれない。どんな非均衡行動も同じように「間違っている」ように見えるが、現実的には、理論を棄却するために用いられるべきではない。質的応答均衡は、どの戦略も正確率でプレーされることを許容し、したがってどんなデータも不可能とはしない(そうかといってかならずしも合理的ともしない)。

ロジット均衡[編集]

質的応答均衡でもっとも一般的なものは間違いなくロジット均衡 (logit equilibrium: LQRE) である。ロジット均衡では、プレーヤーの戦略は確率分布に従って選ばれる。

P_{ij} = \frac{\exp (\lambda EU_{ij} (P_{-i}))}{\displaystyle \sum_k {\exp (\lambda EU_{ik} (P_{-i}))}}
P_{ij} は,プレーヤー i が戦略 j を選ぶ確率。
EU_{ij} (P_{-i}) は,プレーヤー i が戦略 j を選ぶとき、他のプレーヤーが確率分布 P_{-i} に従ってプレーしていることを所与としたときに得られる期待利得。

ロジットモデルにおいてとくに興味があるのは、非負のパラメータ \lambda である(これはときに 1 / \mu と書かれる)。\lambda は合理性のパラメータと考えられる.\lambda \to 0 となるにつれて、プレーヤーは「完全に非合理的」になり、どの戦略も等確率でプレーするようになる。\lambda \to \infty となるにつれて、プレーヤーは「完全に合理的」になり、ゲームのプレーはナッシュ均衡に近づく。

動学ゲームに対して[編集]

動学(展開形)ゲームに対して、マッケルヴィとパルフレイはエージェント質的応答均衡 (agent quantal response equilibrium: AQRE) を定義した。AQRE はいくぶん部分ゲーム完全化に似ている。AQRE において、各プレーヤーはQREのようにある誤りを犯す。所与の決定節において、プレーヤーは、将来の自分を、行動のうえに既知の確率分布をもった独立のプレーヤーとみなして、各行動の与える期待利得を決定する。

QREにおいてそうだったように、AQREでは、どの戦略も正の確率で用いられる。このことは、完全合理的な解概念に比べて、AQREに追加的な利点を与える。任意の経路がある確率で実現するのだから、「均衡経路外」における信念を定義するにあたって何の問題も生じないのである。

批判[編集]

自由パラメータ[編集]

LQRE には自由パラメータ \lambda がある.\lambda \to \infty とすると LQRE はナッシュ均衡に近づく。したがってLQREはつねに、少なくともナッシュ均衡と同じくらいはあてはまりがよいことになる。パラメータを変化させると、均衡行動に大きな変化が起こることになる。

しかしながら、この理論は、\lambda がどこからくるのかを説明しないことには不完全である。実験からの \lambda の推定値は著しく変動しうる。あるときにはこの変動は、個人の特性の効果であるようにみえる(たとえば\lambdaはときに学習によって増加する)。別の場合には \lambda は、ゲームに応じて変化するようにもみえる。

参考文献[編集]