「シンプソンのパラドックス」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
m編集の要約なし
65行目: 65行目:
汚れたカードだけみても汚れていないカードだけみても、絵札以外の方が、赤いカードである可能性が高いことが分かった。
汚れたカードだけみても汚れていないカードだけみても、絵札以外の方が、赤いカードである可能性が高いことが分かった。
では「絵札以外の方が、赤いカードである可能性が高い」といっていいのか?
では「絵札以外の方が、赤いカードである可能性が高い」といっていいのか?
カード全体をと、とそういうことはないことが分かる。
カード全体を見渡して考えることで「分別のある解答」(sensible answer)得られる。
すなわち、そのような関係はない。


{{Col-begin}}
{{Col-begin}}
112行目: 113行目:
出てくる数字はトランプの例と同様だ。
出てくる数字はトランプの例と同様だ。
男女別で調べると、治療した方が生存率が高いことが分かる。
男女別で調べると、治療した方が生存率が高いことが分かる。
男女合わせたら治療の有無と生存との関連がなくなるからといって、この治療が無効とすることはないだろう。
しかし、男女合わせたら治療の有無と生存との関連がなくなってしまう。
「分別のある解釈」(sensible interpretation)はどうなるだろうか?
この治療が無効とされることはまずないだろう。


{{Col-begin}}
{{Col-begin}}

2020年10月17日 (土) 06:08時点における版

シンプソンのパラドックス(英: Simpson's paradox)もしくはユール=シンプソン効果(英: Yule–Simpson effect)は1951年E. H. シンプソン英語版によって記述された統計学的パラドックスである[1]母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

統計学者にとっては1世紀以上前からこの現象は常識であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。

シンプソンのパラドックスの例

A君とB君が1回目と2回目で合わせて110問を解くというテストを受けた。1回目のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。2回目のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらが優れているだろうか?

正解率と優劣の一覧表(優劣を不等号 <、> で表示)

A君 B君 優劣の判断
1回目 60/100 = 60 % 9/10 = 90 % A君 < B君
2回目 1/10 = 10 % 30/100 = 30 % A君 < B君
合計 61/110 = 55 % 39/110 = 35 % A君 > B君

上記の表から次のことが言える。

  • 1回目のテストでは、B君の方が正解率が高かった。
  • 2回目のテストでも、B君の方が正解率が高かった。
  • ところが2つのテストを合わせた合計(総得点)でみると、A君の方が正解率が高いという結果になった。

1回目でA君<B君であり、2回目でもA君<B君であれば、1回目と2回目を合わせてもA君<B君に違いない、と思いこみがちである。しかし、実際にはA君>B君となってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。

もちろんこれはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効である。例えば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、A君の顧客110名とB君の顧客110名とは同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。

総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。

『A君とB君は医師として、病院で治療を行っている。患者は中等症と重症の2群に対する治療で、各々110名の治療成績をテストした。B君は中等症、重症両方の群でA君より良い治療成績であったが、全体の治療成績は悪かった。その理由はB君の患者はほとんどが重症であり(100/110)、A君の患者は殆どが軽症(100/110)であったためである。よってA君の治療成績が良かったという結論は論理的に誤っている。』

上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。

シンプソン自身が提示した例[1]

トランプの 52 枚のカードについて、絵札かどうか(ジャック、クイーン、キングのいずれかかどうか)と色(スペードとクラブなら黒、ハートとダイヤなら赤)との関連を考える。 さっきまで赤ちゃんがこのトランプで遊んでいたので、そのうち 20 枚ほどが汚れていた。 汚れたカードだけみても汚れていないカードだけみても、絵札以外の方が、赤いカードである可能性が高いことが分かった。 では「絵札以外の方が、赤いカードである可能性が高い」といっていいのか? カード全体を見渡して考えることで「分別のある解答」(sensible answer)が得られる。 すなわち、そのような関係はない。

とある治療の有無と生存との関連を、男女別に検討する。 出てくる数字はトランプの例と同様だ。 男女別で調べると、治療した方が生存率が高いことが分かる。 しかし、男女合わせたら治療の有無と生存との関連がなくなってしまう。 「分別のある解釈」(sensible interpretation)はどうなるだろうか? この治療が無効とされることはまずないだろう。

  1. ^ a b Simpson, Edward H. (1951). “The Interpretation of Interaction in Contingency Tables.” (English). Journal of the Royal Statistical Society. Series B (Methodological) 13 (2): 238-241. JSTOR 2984065. http://math.bme.hu/~marib/bsmeur/simpson.pdf 2020年10月17日閲覧。.