交絡
交絡(こうらく、英: confounding)は、統計モデルの中の従属変数と独立変数の両方に(肯定的または否定的に)相関する外部変数が存在すること。そのような外部変数を交絡変数(confounding variable)、交絡因子(confounding factor、confounder)、潜伏変数(lurking variable)などと呼ぶ。したがって科学的研究では、第一種過誤(従属変数が独立変数との因果関係にあるという偽陽性の結論)と呼ばれるこれらの要因を避けるよう制御する必要がある。2つの観測された変数のそのような関係を擬似相関という。すなわち交絡が存在する場合、観測された現象の真の原因は交絡変数であるにもかかわらず、独立変数を原因と推論してしまう。
概要[編集]
定義上、交絡変数は想定される原因と結果の両方に関連している。交絡因子は原因と結果の中間に位置することはない。AがCの原因と想定されるとき、交絡変数BはAを原因として起きるのではないし、またBによって常にCが起きるとは限らない。例えば、女性であることは常に喫煙の原因とはならないし、喫煙が常に癌の原因とは限らない。従って、女性であることと癌になることの因果関係を研究する際には、考えられる交絡因子として喫煙を考慮すべきである。(このたとえ話は一つの予言である。)さらに、2つのリスクグループ(例えば男性と女性)があるとき、交絡因子はそれぞれのグループで常に異なる普及率(例えば喫煙率)となっている。(Hennekens, Buring & Mayrent, 1987)
統計学的研究における因果関係の判定基準は盛んに研究されてきたが、ジューディア・パールは統計学的な概念だけで交絡変数を定義することはできず、そのためにはある程度の因果的想定が必要であることを示した[1]。Austin Bradford Hill は1965年の論文で因果関係の判定基準を提案した[2]。多くの疫学者はこれを交絡と因果関係を考える出発点として採用した。しかし、これはせいぜいヒューリスティック的な価値しかない。因果グラフによって因果的な想定を表す際には、backdoor≒バックドアといわれる簡単な基準によって、交絡変数の集合を特定することが可能である。
研究における交絡の回避方法[編集]
研究において、積極的に交絡変数を除去したり制御したりする方法はいくつか存在する[3]。
- ケースコントロール研究(case-control studies)
- ケース群とコントロール群に等しく交絡因子があるものとする。例えば、心筋梗塞の原因の研究をするとき年齢が交絡変数と考えられるなら、67歳の梗塞患者(ケース)と67歳の健常者(コントロール)を対照する。ケースコントロール研究では、対照変数は年齢や性別であることが多い。
- コホート研究(cohort studies)
- 例えば、年齢が交絡因子と考えられるとき、年齢層をそろえた集団(コホート)を対象として観測する。その中で例えば心筋梗塞の原因として運動量の多寡で対照する。
- 層化(stratification)
- 心筋梗塞において、運動量が多ければ罹患する可能性が低いと考えられ、年齢が交絡因子と考えられるとする。サンプリングされたデータは年齢層によって層化される。すなわち、運動量と心筋梗塞の関係を各年齢層毎に分析する。年齢層によって危険率に差が生じるなら、年齢が交絡因子と考えられる。層化されたデータを扱う統計手法としてマンテル=ヘンツェル法などがある。
これらの手法にはそれぞれ欠点がある。例えば、45歳のアラスカ出身の黒人で、フットボール選手で菜食主義者で教育者として働いている人が何らかの病気にかかり、ケースコントロール研究の対象者になったとする。対照者として属性がほとんど同じでその病気にかかっていない点だけが異なる人を見つけなければならないが、これは大変な作業である。また常に過大対応や過少対応の危険性がつきまとう。コホート研究では、除外される人があまりにも多くなる傾向があり、層化では層が薄くなりすぎる(標本サイズが小さすぎる)傾向がある。
既知の交絡因子を測定することによって交絡を制御し、それらを多変量解析における共変動とする方法もある。層化に比較して、交絡変数の強さに関する情報をほとんど得られないという欠点がある。
重要な問題として、交絡変数は必ずしも判別し測定可能とは限らない。疫学では交絡を完全に制御できないことを指して「残余交絡(residual confounding)」と呼ぶ。標本サイズが大きいなら、無作為化(無作為割付)が最も良い方法であることが多く、その場合は全ての交絡変数(既知も未知も含めて)が全ての研究対象群に等しく分散していると考えられる。
脚注[編集]
- ^ Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 0-521-77362-8
- ^ Bradford Hill, Austin (1965). “The environment or disease: association or causation?”. Proc R Soc Med 58 (May): 295–300. PMID 14283879 .
- ^ Hennekens, Charles H; Buring, Julie E; Mayrent, Sherry L (1987). Epidemiology in Medicine. Lippincott Williams & Wilkins. ISBN 0-316-35636-0