ダゴスティーノのK二乗検定

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

ダゴスティーノのK二乗検定(-にじょうけんてい、英:D'Agostino's K-squared test)とは、統計学において正規性からの逸脱についての適合度検定である。ある標本正規分布母集団由来かどうかを検定する。この検定は標本尖度と標本歪度の変換に基づいている。この検定は歪んだ分布や尖った分布に対してのみ検出力を持つ。

歪度と尖度[編集]

以下では、nを標本数、xii番目の標本、g1を標本歪度、g2を標本尖度、mjj次標本中心モーメント、そして\bar{x}を標本平均とする。(正規性の検定に関する文献では極めて頻繁に、歪度を√β1、尖度をβ2と表記することに注意されたい。例えば√β1は負の値をとりうるため、こうした表記は勝手が悪い。)

標本歪度と標本尖度は以下の式で定義される。

\begin{align}
    & g_1 = \frac{ m_3 }{ m_2^{3/2} } = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^3}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^{3/2}}\ , \\
    & g_2 = \frac{ m_4 }{ m_2^{2} }-3 = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^4}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^2} - 3\ .
  \end{align}

これらの統計量はともに分布の理論的な歪度と尖度の推定量となりうる。(Wikipedia英語版Consistent estimatorも参照。)そのうえ、標本が確かに正規分布由来であるならば、歪度と尖度の正確な有限標本分布自体の平均μ1分散μ2、歪度γ1、尖度γ2を分析することができる。Pearson (1931)がこの分析を実施し、以下の数式を導いた。

標本歪度g1の分布の平均μ1(g1)、分散μ2(g1)、歪度γ1(g1)及び尖度γ2(g1):

\begin{align}
    & \mu_1(g_1) = 0, \\
    & \mu_2(g_1) = \frac{ 6(n-2) }{ (n+1)(n+3) }, \\
    & \gamma_1(g_1) \equiv \frac{\mu_3(g_1)}{\mu_2(g_1)^{3/2}} = 0, \\
    & \gamma_2(g_1) \equiv \frac{\mu_4(g_1)}{\mu_2(g_1)^{2}}-3 = \frac{ 36(n-7)(n^2+2n-5) }{ (n-2)(n+5)(n+7)(n+9) }.
  \end{align}

標本尖度g2の分布の平均μ1(g2)、分散μ2(g2)、歪度γ1(g2)及び尖度γ2(g2):

\begin{align}
    & \mu_1(g_2) = - \frac{6}{n+1}, \\
    & \mu_2(g_2) = \frac{ 24n(n-2)(n-3) }{ (n+1)^2(n+3)(n+5) }, \\
    & \gamma_1(g_2) \equiv \frac{\mu_3(g_2)}{\mu_2(g_2)^{3/2}} = \frac{6(n^2-5n+2)}{(n+7)(n+9)} \sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-3)}}, \\
    & \gamma_2(g_2) \equiv \frac{\mu_4(g_2)}{\mu_2(g_2)^{2}}-3 = \frac{ 36(15n^6-36n^5-628n^4+982n^3+5777n^2-6402n+900) }{ n(n-3)(n-2)(n+7)(n+9)(n+11)(n+13) }.
  \end{align}

変換された標本歪度と標本尖度[編集]

標本歪度g1と標本尖度g2は共に漸近的に正規分布となる。しかし、特にg2は、分布限界への収束率が極めて遅い。例えば標本数nが5000でさえ標本歪度g2の分布の歪度γ1(g2)と尖度γ2(g2)は共におよそ0.3である。正規分布の歪度と尖度が0であることから、0.3という値は無視できない。こうした状況を改善するためにg1g2の分布ができる限り標準正規分布に近づくようにg1g2を変換する。

特にD'Agostino (1970) は以下に示すg1の変換式を提案した。


    Z_1(g_1) = \delta\cdot \ln\!\left( \frac{g_1}{\alpha\sqrt{\mu_2}} + \sqrt{\frac{g_1^2}{\alpha^2\mu_2} + 1}\right),

ここで定数αδは以下の式で計算される。

\begin{align}
    & W^2 = \sqrt{2\gamma_2 + 4} - 1, \\
    & \delta = 1 / \sqrt{\ln W}, \\
    & \alpha^2 = 2 / (W^2-1), \\
  \end{align}

ここで、μ2 = μ2(g1)はg1の分散、γ2 = γ2(g1)は尖度である。(式は前項と同様。)

同様にAnscombe & Glynn (1983)g2の変換式を提案した。この式は標本数が20以上で合理的に機能する。


    Z_2(g_2) = \sqrt{\frac{9A}{2}} \left\{1 - \frac{2}{9A} - \left(\frac{ 1-2/A }{ 1+\frac{g_2-\mu_1}{\sqrt{\mu_2}}\sqrt{2/(A-4)} }\right)^{\!1/3}\right\},

ここで、


    A = 6 + \frac{8}{\gamma_1} \left( \frac{2}{\gamma_1} + \sqrt{1+4/\gamma_1^2}\right),

また、μ1 = μ1(g2), μ2 = μ2(g2), γ1 = γ1(g2)はPearsonが計算した値である。

包括的なK2統計量[編集]

統計量Z1Z2は包括的な検定を生成するために結合することができる。統計量Z1Z2は分布のひずみととがりに起因する正規性からの逸脱を検出できる。(D’Agostino, Belanger & D’Agostino 1990)


    K^2 = Z_1(g_1)^2 + Z_2(g_2)^2\,

正規性という帰無仮説が正しいならば、K2自由度2のカイ二乗分布に漸近する。

統計量g1及びg1は独立ではなく無相関であるにすぎないことに注意されたい。それゆえg1及びg1を変換した量Z1及びZ2もまた独立でなく(Shenton & Bowman 1977)、カイ二乗に近似することの有効性に疑問を投げかける。シミュレーションによると帰無仮説のもとではK2検定統計量は下表のような性質をもつ。

期待値 標準偏差 95%値
n = 20 1.971 2.339 6.373
n = 50 2.017 2.308 6.339
n = 100 2.026 2.267 6.271
n = 250 2.012 2.174 6.129
n = 500 2.009 2.113 6.063
n = 1000 2.000 2.062 6.038
χ2(2) distribution 2.000 2.000 5.991

参考文献[編集]

関連項目[編集]

以下に挙げる検定はいずれも分布の正規性を検定する手法である。