信頼区間

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

信頼区間(しんらいくかん、Confidence interval)とは、統計学母数がどのような数値の範囲にあるかを確率的に示す方法である。UV を、ある母数θ (観測できない)を含んだ確率分布に従う統計量(これは観測値から求められる確率変数である)であるとし、「Uθ より小さく、Vθ より大きい」という確率を、0と1の間の数値xを用いて

Pr_{(U<\theta<V)} = x

と書く。このとき区間 (U - V) を、「\theta に対する (100 \cdot x) \% 信頼区間」と表現する。値 x (または(100 \cdot x) \%)は、信頼水準または信頼係数と呼ばれ、95%あるいは99%などの数値を用いる。

信頼区間は普通、標本から計算された統計量とともに与えられる。

例えば「信頼水準95%で、投票者の35%から45%がA候補を支持している」といったとき、95%というのが信頼水準で、35%から45%というのが信頼区間、θに当たるのはA候補の支持率である。

信頼区間の解釈[編集]

上の言い方は「候補Aの支持率が35%から45%である確率は95%である」 というふうにとられやすいが、これは(少なくとも従来の統計学の主流的考え方としては)誤解である。

別の例として、観測値から海王星の質量を推定する場合を考えよう。

1.「信頼水準90%で、海王星の質量はαからβの間である」

とは言えるが、観測から得られた値αとβに基づいて

2.「海王星の質量がαからβの間に入る確率は90%である」

と言うことはできない。質量はあくまで定数であって、誤差が生じるのは観測による、つまりαとβが誤差を含む統計量だからである。従来の統計学(確率を頻度として定義する頻度主義)の考え方では海王星の例(1)を言い直せば、

1'.「『海王星の質量はαからβの間である』といえば、10回に9回くらいは当たっているだろう」

ということになる。

ただし、確率を信頼の度合いとして定義するベイズ推計学の考え方では、2のような言い方は必ずしも誤りではない。この場合、普通用いられる考え方はベイズ確信区間(Bayesian credible interval)である。これはまずθ の値として予想される事前確率分布から出発して、次に観測データが与えられた条件でのθ の条件付確率分布を求め、これを事後確率分布として”信頼”区間の表現に用いる方法である。

具体例[編集]

X1, ..., Xn を、平均μ 、分散σ2正規分布に従う母集団から抽出した独立な標本とする。そこで

\overline{X}=(X_1+\cdots+X_n)/n
S^2=\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2

とすれば、

T=\frac{\overline{X}-\mu}{S/\sqrt{n}}

は自由度 n - 1 のt分布に従う。ここでT が従う分布は母数μσ2 (観測できない)にはよらないことに注意。c をこの分布の95%点とすれば、90% 信頼区間が

Pr_{(-c<T<c)} = 0.9

(注:分布全体での95%点は片側での90%点に相当する)

従って

Pr_{\left(\overline{X}-cS/\sqrt{n}<\mu<\overline{X}+cS/\sqrt{n}\right)} = 0.9

こうしてμ の90% 信頼区間が得られる。

関連項目[編集]