コルモゴロフ-スミルノフ検定

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

コルモゴロフ-スミルノフ検定(コルモゴロフ-スミルノフけんてい、: Kolmogorov-Smirnov test)は統計学における仮説検定の一種であり、有限個の標本に基づいて、二つの母集団確率分布が異なるものであるかどうか、あるいは母集団の確率分布が帰無仮説で提示された分布と異なっているかどうかを調べるために用いられる。しばしばKS検定と略される。

1標本KS検定は、経験分布を帰無仮説において示された累積分布関数と比較する。主な応用は、正規分布および一様分布に関する適合度検定である。正規分布に関する検定については、リリフォースによる若干の改良が知られている(リリフォース検定)。正規分布の場合、一般にはリリフォース検定よりもシャピロ-ウィルク検定アンダーソン-ダーリング検定の方がより強力な手法である。

2標本KS検定は、二つの標本を比較する最も有効かつ一般的なノンパラメトリック手法の一つである。これは、この手法が二つの標本に関する経験分布の位置および形状の双方に依存するためである。

統計量[編集]

n個の標本y1,y2,...,ynに対する経験分布Fnは以下のように与えられる。

F_n(x)={1 \over n}\sum_{i=1}^n \left\{\begin{matrix}1 & \ (y_i\leq x) \\ 0 & \ (y_i > x) \end{matrix}\right.

このとき、二つの片側KS検定統計量は、以下のように与えられる。

D_n^{+}=\sup_x(F_n(x)-F(x))\,
D_n^{-}=\sup_x(F(x)-F_n(x))\,

ここでF(x) は帰無仮説で提示される分布、またはもう一方の経験分布である。二つの分布が等しいという帰無仮説が棄却されないと仮定する場合、上記の二つの統計量が従うべき確率分布は、仮説で提示される分布が連続分布である限りにおいて、分布の形に依存しない。

クヌースはこの1対の統計量に関する有意性を解析する方法に関する詳細な記述を与えている。多くの人々は2つの統計量の代わりにDn=max(Dn+Dn) という統計量を用いるが、この統計量の分布はさらに扱いにくい。

有意確率[編集]

1標本KS検定では、サンプル数nが十分大きいとき、経験分布Fn(x)が帰無仮説に従う(すなわち、経験分布が帰無仮説で提示された分布F(x)と一致する)と仮定した下での場合の検定量の分布は

\operatorname{Prob}(\sqrt{n}D_n\leq x)=1-2\sum_{i=1}^\infty (-1)^{i-1} e^{-2i^2 x^2}=\frac{\sqrt{2\pi}}{x}\sum_{i=1}^\infty e^{-(2i-1)^2\pi^2/(8x^2)}.

で与えられる。したがって、有意水準を\alphaとするとき、検定量Dn\sqrt{n}D_n>K_{\alpha}(ただしK_{\alpha}\operatorname{Prob}(\sqrt{n}D_n\leq K_{\alpha})=1-\alpha.\,を満たす数)を満たすとき、帰無仮説は棄却され、経験分布Fn(x)は帰無仮説で提示された分布F(x)とは異なることが示唆される。

その他[編集]

1年のうちの1日や、あるいは1週間のうちの1日といったように、独立変数が周期性を持つ場合、カイパー検定の方がより適切である。数値解析の有名な著作である"Numerical Recipes"には、このことに関する詳しい情報が記載されている。

さらに、コルモゴロフ-スミルノフ検定は分布の裾の部分よりも中央値付近の方に強く依存する。これに対して、アンダーソン-ダーリング検定は裾でも中央値付近でも等しい感度を与える。

関連項目[編集]