母集団全体では負の相関があっても、各層では正の相関があるという逆転現象
シンプソンのパラドックス(英: Simpson's paradox)もしくはユール=シンプソン効果(英: Yule–Simpson effect)は1951年にイギリスの統計学者エドワード・H・シンプソン(英語版)によって記述された統計学的なパラドックスである[1]。母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるという逆説。つまり集団を分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。
統計学者にとっては1世紀以上前からこの現象は常識であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。
AとBが2回試験を受けた。1回目では、Aは100問中60問正解し、Bは10問中9問正解した。2回目では、Aは10問中1問正解し、Bは100問中30問正解した。AとBどちらが優秀か?
正解率と優劣の一覧表
|
|
A
|
B
|
優劣の判断
|
| 1回目
|
0.60 (= 60/100)
|
0.90 (= 9/10)
|
A < B
|
| 2回目
|
0.10 (= 1/10)
|
0.30 (= 30/100)
|
A < B
|
| 合計
|
0.55 (= 61/110)
|
0.35 (= 39/110)
|
A > B
|
上記の表から次のことが言える。
- 1回目では、Bのほうが正解率が高い。
- 2回目でも、Bのほうが正解率が高い。
- ところが、2回の試験を合わせた合計(総得点)でみると、Aのほうが正解率が高い。
多くの人の直感に反するが、実際にA > Bとなってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。
1回目と2回目それぞれの試験では、両者が回答した問題数が異なる。総得点では、AとBそれぞれにとって多く出題された回での正解率が強く影響する。そのため、総得点の優劣は個々の試験での優劣と直接には連動しない。2回目では両者ともに正解率が著しく低いが、Bのほうが問題数が多いため、総得点で優劣を評価するとBが不利になる。
両者が同じ難易度分布の110問を解いた場合、総得点に基づいてAの方が優秀だと考えられる。この場合、Aが多く回答した1回目ではBのほうで簡単な問題が抽出され、Bが多く回答した2回目ではAのほうで難しい問題が抽出されたと推測できる。
一方で、1回目と2回目で難易度が異なり、かつ同じ回で両者が同じ難易度の試験を受けていた場合、公正に評価するには、AとBそれぞれで各試験の重みが異なってはならず、総得点での比較は不当である。
これを受験成績ではなく医師の治療成績に置き換えて考えると、以下のようになる。
- 医師Cと医師Dは、病院で治療を行っている。中等症患者と重症患者の2群に対する治療で、各々合計110名の治療成績をテストした。Dは両群でそれぞれCより高い治療成績であったが、全体の治療成績は低かった。これは、Cの患者のうち100人が中等症であり、Dの患者のうち100人が重症であったためである。よって、Cのほうが優秀であるという結論は論理的に誤っている。
上の話では、AとBの状況を先ほどの受験の話から何も改変していない。
なお、例えば従業員1人あたり110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など、現実的な統計処理においては、各従業員の顧客は同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。
シンプソン自身が提示した例では、関連性の逆転はみられない[1]。
トランプの52枚のカードについて、絵札か数札か(JとQとKは絵札、Aと2〜10は数札)と色(スペードとクラブは黒、ハートとダイヤは赤)との関連を考える。
赤ん坊がトランプで遊んだ後、52枚のうち20枚ほどが汚れていた。汚れたカードだけみても汚れてないカードだけみても、数札の方が、赤いカードである可能性が高いと分かった。
カードの内訳
|
汚れた |
汚れてない
|
|
絵札 |
数札 |
絵札 |
数札
|
| 赤 ♦︎♥︎
|
4枚 |
8枚 |
2枚 |
12枚
|
| 黒 ♣︎♠︎
|
3枚 |
5枚 |
3枚 |
15枚
|
赤の比率の比較
|
|
絵札
|
数札
|
比較
|
| 汚れた
|
0.57 (= 4/7)
|
0.62 (= 8/13)
|
絵札 < 数札
|
| 汚れてない
|
0.40 (= 2/5)
|
0.44 (= 12/27)
|
絵札 < 数札
|
| 合計
|
0.50 (= 6/12)
|
0.50 (= 20/40)
|
絵札 = 数札
|
では「数札の方が、赤いカードである可能性が高い」と結論付けてよいだろうか。カード全体を見渡して考えることで「分別のある解答」(sensible answer)を得られる。すなわち、そのような関係はない。これは汚れた絵札と汚れてない数札の重みによる。
ある治療の有無と生存の関連を、男女別に検討する。出てくる数字はトランプの例と全く同じである。男女別で調べると、治療した方が生存率が高い。しかし、男女を合わせると治療の有無と生存との関連がなくなる。「分別のある解釈」(sensible interpretation)はどうなるだろうか。この治療が無効とされることはまずないだろう。
患者の内訳
|
男性 |
女性
|
| 治療 |
なし |
あり |
なし |
あり
|
| 生存
|
4人 |
8人 |
2人 |
12人
|
| 死亡
|
3人 |
5人 |
3人 |
15人
|
生存率の比較
|
|
治療なし
|
治療あり
|
比較
|
| 男性
|
0.57 (= 4/7)
|
0.62 (= 8/13)
|
なし < あり
|
| 女性
|
0.40 (= 2/5)
|
0.44 (= 12/27)
|
なし < あり
|
| 合計
|
0.50 (= 6/12)
|
0.50 (= 20/40)
|
なし = あり
|
合計の比較において効果がないと判断してしまうのも、治療を受けなかった男性と、治療を受けた女性の重みによる。
この例に対し、Miguel Hernán(英語版) は、Simpson 自身の記述の曖昧さを指摘しつつも、以下のような解釈を与えている[2]。
トランプの例では、汚れの有無 (C) は絵札か否か (A) とカードの色 (B) の共通の結果、すなわち合流点である。

治療の例では、性別 (C) は治療の有無 (A) と生死 (B) の共通の原因、すなわち交絡因子である。

トランプの例では、合流点による選択バイアスを避けるためにカード全体を見渡すべきだし、治療の例では、交絡を避けるために性別で層別化して考えるべきだ。ただし、CがAと関係せずにBの原因となるとき、例えば無作為割付がなされた場合には、層別化する必要はない。因果関係の方向性に基づいて解析手法を検討するが、因果関係の方向についてはそのテーマに関する因果構造の知識が必要である。
トランプのカードが汚れたから(C)といって絵札になったり(A)赤のカードになったり(B)することはないし、治療したから(A)とか生存したから(B)といって男性になる(C)ようなことはない。
そして、次のように結論づけている[3]。
- 同じデータであっても異なる因果構造に起因するものであれば異なる解析が必要である。
- 実りのある因果推論を行うためには、統計学だけではなく、主題に関する因果関係の知識が必要だ。
本節では、相関の向きと強さを共分散によって定量化する。
共分散を既知とする集団が二つ以上あると考え、それらの集団の集まりを
とおく。
に属する任意の二つの集団は重複しないとする。
集団の大きさ、説明変数値の平均、目的変数値の平均、共分散について、それぞれの記法を下式のように定義する。
は説明変数値を返す写像(関数)、
は目的変数値を返す写像である。
全体についての説明変数値と目的変数値それぞれの加重平均を下式のように求める。
下式[注釈 1]のように、
全体の共分散
は、
に属する各集団についての共分散の加重平均のほかに、
に属する任意の二つの集団の重心の相対的な位置関係にも依存する。
に属する全ての集団で相関の向きが全て同じであっても、集団間の相対的な位置関係によって
全体の相関の向きはその逆をとることがある。そのため、「
に属する集団のうち一つ以上では必ず、相関の向きが
全体でのそれと同じである」との帰結は誤謬となる。
ある同一の説明変数値に複数の元がある場合、説明変数値別の目的変数の加重平均値からも全体の共分散は定まる。なお、共分散の定義上、同一の説明変数値上に元が散らばる集団における共分散は必ず 0 となる。
- ^ 専らシンプソンのパラドックスを説明するための数式であり、実際の統計処理には適しない。