仮説検定

仮説検定（かせつけんてい）、もしくは統計学的仮説検定 (Statistical hypothesis testing)、あるいは単に検定法とは、ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。

仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に（予め決めておいた値より）小さければ、「仮説は成り立ちそうもない」と判断できる。（なお本項で述べるのは従来の頻度主義統計学の考え方であって、ベイズ主義では考え方が異なる）

手順

仮説検定は次のような手順で実施する。

仮説の設定

仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。たとえば薬の試験（効果があることを示したい）を例にとれば、

「薬に対する反応の平均がプラセボに対する反応の平均と等しい。どちらの反応も正規分布に従うがその標準偏差は両者で等しく、平均を問題とする」

という仮説を立てる。この仮説は最終的に棄却されるべきものなので、帰無仮説（きむかせつ Null hypothesis）と呼ばれ、普通 H₀ と書く。また帰無仮説に対立する仮説（対立仮説（たいりつかせつ Alternative hypothesis）： H₁ ）を立てることも多い。上の例では対立仮説は「薬に対する反応の平均がプラセボに対するそれと異なる」ということになる。

統計量の算出

標本データから、仮説に関係した情報を要約する検定統計量を計算する。このような統計量を十分統計量という。母数に対応する十分統計量は、母集団の確率分布が指数型分布族である場合、かつその場合にのみ存在する。

例で言えば、2つの標本平均の差m₁ − m₂は十分統計量である。

統計量の確率分布

仮説に基づき、検定統計量の確率分布を明らかにする。

例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差に ${\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}$ をかけたもの（ここで n₁ と n₂ は各標本のサイズ）である。

危険域の設定

可能な全ての値の集合の中で、仮説に反する極端な範囲（分布関数をグラフ表示した場合には、裾に当たる部分）を選ぶ。これは検定統計量の危険域（Critical region）と呼ばれる。仮説が正しい場合に検定統計量が危険域内に入る確率を検定の危険率（有意水準あるいは検定のサイズともいい、ふつうαと表す）と呼ぶ。危険率として具体的には0.05(5%)、0.01(1%)などを用いることが多い。

仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる（両側検定）。また「･･･の方が平均が大きい(小さい)ということはない」と主張するタイプであれば、片側の裾だけを用いる（片側検定）。検定の種類によっては両側検定または片側検定のみということもある。

判定

データから算出した十分統計量が危険域内にあるかどうかを判定する。

通常は統計量が仮定した分布の中で、算出した十分統計量と同じかそれよりも極端な（仮説に反する）値となる確率（これをp値という）を数表などにより求め、これとαとを比較し、p < αならば危険域の内部にあると判断する。検定統計量が危険域内にあれば、結論は

仮説は正しくない。従って帰無仮説を棄却する（これから危険域のことを棄却域Rejection regionともいい、それ以外の範囲は採択域Acceptance regionという）

か、さもなくば

α以下の確率しかない事象が起こった

のいずれかになる。この場合をα水準で統計学的に有意であるという。例では「薬に対して観察された反応はα水準で統計学的に有意である」といえる。わかりやすくいえば、「仮説のもとでこのようなことは偶然に起こりそうもないが、ごく小さい確率αで起こりうる」ということである。

一方、検定統計量が危険域の外側にあれば、

仮説を棄却するに足る証拠はないというのがただ1つの結論となる。

統計学の目的は（当然であるが）科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。

その他の用語

帰無仮説が正しいときに，これを棄却してしまう誤りを第1種の過誤（Type I error）といい，これをαで表す。第1種の過誤を犯す確率は危険率とも呼ばれ，有意水準に等しい。

また，誤った帰無仮説を棄却しない誤りのことを第2種の過誤（Type II error）といい，これをβで表す。このとき，1 - βを考えると，これは誤った帰無仮説を正しく棄却できる確率となり，一般に検定力あるいは検出力(Power)と呼ばれる。

第1種の過誤を減らそうとすれば第2種の過誤が増える（あるいはその逆）という傾向がある（模式図 参照）。仮説検定では一般に、予め指定した十分小さいαに対し、βをなるべく小さく（検出力をなるべく大きく）するように棄却域を選ぶ方針がとられる（ネイマン・ピアソンの基準）。

ちなみに検定の実施自体は誤っていないが、検定法の適用を誤っている場合を第3種の過誤（Type III error）という。

種類

例のように、母集団の分布として正規分布を、あるいは比較する2群間の等分散（標準偏差が等しい）を仮定する（母数＝パラメータを仮定する）検定法をパラメトリックParametric、それらを仮定せず一般の分布に適用できる検定法をノン・パラメトリックNon-parametricな検定と呼ぶ。具体的な方法の例を挙げる。

パラメトリックな検定手法

ノン・パラメトリックな検定手法

検定の目的からは、母数の有意性の検定、適合度検定（特定の母集団から抽出されたものか）、均一性検定（2標本が同一母集団によるものか：上の例）、独立性検定（2標本が独立か）などに分けられる。