「シンプソンのパラドックス」の版間の差分

削除された内容追加された内容

インライン

2020年5月20日 (水) 04:25時点における版

シンプソンのパラドックス（英: Simpson's paradox）もしくはユール＝シンプソン効果（英: Yule–Simpson effect）は1951年にE. H. シンプソン（英語版）によって記述された統計学的なパラドックスである。母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

統計学者にとっては1世紀以上前からこの現象は常識であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。

シンプソンのパラドックスの例

A君とB君が1回目と2回目で合わせて110問を解くというテストを受けた。１回目のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。２回目のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらが優れているだろうか？

正解率と優劣の一覧表（優劣を不等号＜、＞で表示）


	A君	B君	優劣の判断
1回目	60/100 = 60 %	9/10 = 90 %	A君＜ B君
2回目	1/10 = 10 %	30/100 = 30 %	A君＜ B君
合計	61/110 = 55 %	39/110 = 35 %	A君＞ B君

上記の表から次のことが言える。

１回目のテストでは、B君の方が正解率が高かった。

２回目のテストでも、B君の方が正解率が高かった。

ところが２つのテストを合わせた合計（総得点）でみると、A君の方が正解率が高いという結果になった。

１回目でA君＜B君であり、２回目でもA君＜B君であれば、１回目と２回目を合わせてもA君＜B君に違いない、と思いこみがちである。しかし、実際にはA君＞B君となってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。

もちろんこれはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効である。例えば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、A君の顧客110名とB君の顧客110名とは同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。

総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。

『A君とB君は医師として、病院で治療を行っている。患者は中等症と重症の2群に対する治療で、各々110名の治療成績をテストした。B君は中等症、重症両方の群でA君より良い治療成績であったが、全体の治療成績は悪かった。その理由はB君の患者はほとんどが重症であり（100/110）、A君の患者は殆どが軽症(100/110）であったためである。よってA君の治療成績が良かったという結論は論理的に誤っている。』

上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。

@@ 2行目: / 2行目: @@
 '''シンプソンのパラドックス'''（英: Simpson's paradox）もしくは'''ユール＝シンプソン効果'''（英: Yule–Simpson effect）は[[1951年]]に{{仮リンク|E. H. シンプソン|en|Edward H. Simpson}}によって記述された[[統計学|統計学的]]な[[パラドックス]]である。[[母集団]]での[[相関]]と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある[[仮説]]が成立しても、集団全体では正反対の仮説が成立することがある。
-統計学者にとっては1世紀以上前からこの現象は既知であったが、[[哲学]]者、[[コンピュータ]]を扱う科学者、[[疫学]]者、[[経済学]]者らは最近でもこのパラドックスに対する議論を行っている。
+統計学者にとっては1世紀以上前からこの現象は常識であったが、[[哲学]]者、[[コンピュータ]]を扱う科学者、[[疫学]]者、[[経済学]]者らは最近でもこのパラドックスに対する議論を行っている。
 == シンプソンのパラドックスの例 ==
-A君とB君が1回目と2回目で合わせて110問を解くという[[試験|テスト]]を受けた。最初のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。次のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらの正答率が上なのだろうか？
+A君とB君が1回目と2回目で合わせて110問を解くという[[試験|テスト]]を受けた。１回目のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。２回目のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらが優れているだろうか？
+'''正解率と優劣の一覧表'''（優劣を不等号 ＜、＞ で表示）
-この例について考えてみる。話を整理するためにいくつかの記号を導入する。
+{| class="wikitable" style="font-size:95%; margin-right:10px;"
+|+
+!
+!A君
+!B君
+!優劣の判断
+|-
+|1回目
+|60/100 = 60 %
+|9/10 = 90 %
+|A君 ＜ B君
+|-
+|2回目
+|1/10 = 10 %
+|30/100 = 30 %
+|A君 ＜ B君
+|-
+|合計
+|61/110 = 55 %
+|39/110 = 35 %
+|A君 ＞ B君
+|}
+上記の表から次のことが言える。
-* 最初のテストでは、A君は解答した問題の60％(''S''<sub>A</sub>(1) = 60%)、B君は90％(''S''<sub>B</sub>(1) = 90%)が正解であった。つまりB君の方が正解率が高かった。
-* 同様に、次のテストでは、A君は10％(''S''<sub>A</sub>(2) = 10%)、B君は30％(''S''<sub>B</sub>(2) = 30%)の正解率であった。どちらのテストもB君の方が正解率が高かった。
+* １回目のテストでは、B君の方が正解率が高かった。
+* ２回目のテストでも、B君の方が正解率が高かった。
-* しかし、2つのテストを合わせてみると、A君とB君は2人とも110の問題を解いていて、そのうちA君は61問(''S''<sub>A</sub> = 61/110)、B君は39問(''S''<sub>B</sub> = 39/110)が正解であった。
-* つまり、''S''<sub>B</sub> < ''S''<sub>A</sub> となり、'''B君はどちらのテストでもA君よりも正解率が高かったのにもかかわらず、A君の方が正解率が高い'''という結果になった。
+* ところが２つのテストを合わせた合計（総得点）でみると、'''A君の方が正解率が高い'''という結果になった。
+１回目でA君＜B君であり、２回目でもA君＜B君であれば、１回目と２回目を合わせてもA君＜B君に違いない、と思いこみがちである。しかし、実際には'''A君＞B君'''となってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。
-このパラドックスでは、計算の方法が考慮されていない。もし、''S''<sub>B</sub>(1) > ''S''<sub>A</sub>(1) かつ ''S''<sub>B</sub>(2) > ''S''<sub>A</sub>(2)であれば、私たちは
-''S''<sub>B</sub> は ''S''<sub>A</sub>よりも大きいに違いない、と思いこみがちである。
-しかし、各々の総得点を計算する際に異なった加重を与えてみるとどうなるだろうか。A君の最初のテストの加重は100/110でありB君では10/110である。2回目のテストの加重は各々、A君 10/110、B君 100/110となる。
+もちろんこれはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効である。例えば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、A君の顧客110名とB君の顧客110名とは同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。
-:''S''<sub>A</sub> = 100/110 ''S''<sub>A</sub>(1) + 10/110 ''S''<sub>A</sub>(2)
-:''S''<sub>B</sub> = 10/110 ''S''<sub>B</sub>(1) + 100/110 ''S''<sub>B</sub>(2)
-加重を与えることによってAの総得点率は''S''<sub>A</sub> = 61/110 = 約55％、Bの総得点率は''S''<sub>B</sub> = 39/110 = 約35％と計算できる。このように、計算方法によりパラドックスを見抜くことが出来る。
-しかし、これはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効で、たとえば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、依然として個人の成績と全体の成績の間には[[矛盾]]が残る。
 総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。