分割表

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

分割表: contingency table)は、統計学において、2つ以上の変数(名義尺度が一般的)の間の関係を記録し分析するためのもの。

例えば、性別(男性と女性)と利き手(右手と左手)という2つの変数があるとする。100人の無作為抽出した標本について、これら変数を観測する。すると、2つの変数の関係は次のように分割表で表すことができる。

右利き 左利き 合計
男性 43 9 52
女性 44 4 48
合計 87 13 100

この表で、右端の列を行周辺合計 (row marginal total) 、下端の行を列周辺合計 (column marginal total) と呼び、右下端の角にあたる部分を総計 (grand total) と呼ぶ。

この表から、男性の右利きの割合と女性の右利きの割合には大差がないことが一見してわかる。しかし、両者は全く同じではなく、その差が有意かどうかは表内の各エントリが母集団からの無作為抽出であるとして、帰無仮説についてカイ二乗検定G検定フィッシャーの正確確率検定といった仮説検定を行うことで確かめることができる。表の各行や各列について割合が異なる場合、その表は2つの変数間の「付随性」(contingency) を示していると見ることができる。付随性がない場合、2つの変数は「独立」(independent) と見ることができる。

上の例は最も単純な形式の分割表であり、各変数は2つの値しかとらない。これを2×2分割表と呼ぶ。行や列は任意の個数のものがありうる。2つより多くの変数についての分割表もありうるが、その場合は紙上で表現するのが難しい。順序尺度についても分割表で表すことができるが、順序尺度についての分布は中央値で実質的に代表させることができるため、分割表の利用は名義尺度ほど一般的ではない。

2つの変数の関連性の度合いは、いくつかの係数で評価できる。最も単純な係数として以下のように定義されるファイ係数がある。

\phi=\sqrt{\frac{\chi^2}{N}}

ここで、χ2 はピアソンのカイ二乗検定で得られる値、N は観測の総計である。φは0(変数間には全く関係がない)から1(変数間には完全な関係がある)までの値をとる。この係数は2×2分割表でのみ使える。他にも、テトラコリック相関係数(これも2×2分割表でのみ利用可能)、C係数 (contingency coefficient)、クラメールV係数などがある。C係数は、非対称な表(行数と列数が同じでない表)では完全な相関であっても最大値が1にならないという欠点がある。テトラコリック相関係数は2つの変数が正規分布の場合のピアソンの確率相関係数であり、確率変数の分布を適切な割合で2つのカテゴリに分類することで、観測された分割表を再現することができる。セルに 01 という値を割り当てて計算されるピアソンの確率相関係数と混同すべきではない。各変数が3つ以上の値をとる場合の表についての同様の量を多分相関係数と呼ぶ。

他の係数は次のような式で表される。

C=\sqrt{\frac{\chi^2}{N+\chi^2}}
V=\sqrt{\frac{\chi^2}{N(k-1)}}

k は列数または行数の少ないほうである。

C は、行と列が任意個の表であっても \sqrt{\frac{k-1}{k}} で割ることで完全な相関があるときに最大値が1になるようにできる。

contingency table という用語は、カール・ピアソンが "On the Theory of Contingency and its Relation to Association and Normal Correlation"(in Drapers' Company Research Memoirs (1904) Biometric Series I)で使ったのが初出とされている。

外部リンク[編集]