予測区間

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

予測区間(よそくくかん)とは統計学用語で、母集団を仮定した上で、将来観察されるであろう標本値(現在は測定できない)に対して「どの範囲にあると予測されるか」を示すものである。

これに対し、信頼区間とは、母集団の母数(標本から測定できない)に対して 「どの範囲にあると推定できるか」を示すものである。混同しないように注意。

[編集]

正規分布に従う母集団から標本を抽出したとしよう。母集団の平均標準偏差は不明である(標本から推定できるのみ)。n を標本サイズ、 μと σ を母集団の平均と標準偏差とし、 X1, ...,Xn を現在までの標本として、これから次の観察値Xn+1 を予測したい。現在までの標本の平均および分散

\overline{X}_n=(X_1+\cdots+X_n)/n
S_n^2={1 \over n-1}\sum_{i=1}^n (X_i-\overline{X}_n)^2

とする。ここで次の数値:

{X_{n+1}-\overline{X}_n \over \sqrt{S_n^2+S_n^2/n}} = {X_{n+1}-\overline{X}_n \over S_n\sqrt{1+1/n}}

を考えると、これはスチューデントのt分布(自由度 n − 1 )に従うことが示される。従って

\Pr\left(\overline{X}_n-T_a S_n\sqrt{1+(1/n)}\leq X_{n+1}   \leq\overline{X}_n+T_a S_n\sqrt{1+(1/n)}\,\right)=p

とすれば、Ta は自由度 n − 1 のt分布における 100((1 + p)/2)パーセント点である。そして

\overline{X}_n\pm T_a {S}_n\sqrt{1+(1/n)}

という数値が Xn+1 に対する100p%予測区間の境界を表す。

例えば p = 0.95 とすれば、95%予測区間ということになる。

関連項目[編集]