十分統計量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

十分性(じゅうぶんせい)は、統計学用語。

ある統計データに対し、それが従う確率分布を示す母数 θ に対応する統計量の値が決められた条件下で、データが出現する条件付き確率分布が、もはやθ にはよらない場合に、この統計量は十分である(あるいは統計量の十分性十分統計量)という。

直感的にいうと、「母数θ(直接は求められず、推定しかできない)に対する十分統計量は、θ についてデータから得られる最大限の情報を含んでおり、現在得られる最良のものである」ということになる。十分統計量はロナルド・フィッシャーによって導入された、統計学的推定において基本的な概念である。

定義[編集]

確率変数X に対する統計量T(X) の値が与えられた条件下で、データx の従う条件付き確率分布が母数 θ独立である場合、かつその場合に限り、「T(X)はθ に対して十分である」という。すなわち:

\Pr(X=x|T(X)=t,\theta) = \Pr(X=x|T(X)=t) \,

簡単に書けば\Pr(x|t,\theta) = \Pr(x|t) \,である。従って


\Pr(x|\theta) = \Pr(x,t|\theta) = \Pr(x|t,\theta) \cdot \Pr(t|\theta) = \Pr(x|t) \cdot \Pr(t|\theta)

である。

フィッシャーの因子分解定理[編集]

十分統計量を決定する基準として、フィッシャーの因子分解定理がある。これは、

X確率密度関数(離散的な場合には確率質量関数)をf(x ;θ) (これは尤度関数に等しい)とすると、ある関数 gh が次の関係にある場合、かつその場合に限り、Tθ に対して十分である:
 f(x;\theta)=h(x) \, g(T(x);\theta) \,\!
つまり、密度関数 f が分解できて、1つの因子 hθ に依存せず、またもう1つの因子が T(x) を通してのみ x に依存するようにできる

というものである。これは次のように考えるとわかりやすい。T(X) の値を一定に保ちながらデータ x の値を変え、このような変化が θ に関する推定に影響するかどうかを考えてみる。上の式が成り立つならば、尤度関数 fθ に対する依存性は変化しないから、影響はないのである。

これが成立するならこの統計量は良いものであるというわけではない。しかし、少なくともこの条件を満たしていない統計量に良い結果は望めない。

[編集]

ベルヌーイ分布[編集]

X1, ...., Xnベルヌーイ分布に従う独立な確率変数、その期待値p とすると、和T(X) = X1 + ... + Xn が、p に対する十分統計量となる(ここで「成功」は X_i=1 に、「失敗」はX_i=0 に当たる。従って T は総成功回数である)。

これは次の同時確率分布をみればわかる:

 \Pr(X=x)=P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n)

各観察は独立だから、次のように書き換えられる:

p^{x_1}(1-p)^{1-x_1} p^{x_2}(1-p)^{1-x_2}\cdots p^{x_n}(1-p)^{1-x_n} \,\!

そしてp と 1 − p の累乗を集めて、

p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{T(x)}(1-p)^{n-T(x)} \,\!

これは因子分解基準に合致し、h(x)=1 となる。

特に注目すべきは、不明の母数p が、統計量 T(x) = Σ xi を通じてのみ、観察値 x に関係することである。

一様分布[編集]

X1, ...., Xn を、一様分布に従う独立な確率変数([0,θ]の値をとる)とすると、T(X) = max(X1, ...., Xn )が、θ に対する十分統計量である。

これは次の同時確率分布をみればわかる:

\Pr(X=x)=P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n)

観察値は互いに独立だから、次のように書き換えられる:

\frac{\operatorname{H}(\theta-x_1)}{\theta}\cdot 
\frac{\operatorname{H}(\theta-x_2)}{\theta}\cdot\,\cdots\,\cdot 
\frac{\operatorname{H}(\theta-x_2)}{\theta}\cdot\,\cdots\,\cdot 
\frac{\operatorname{H}(\theta-x_n)}{\theta} \,\!

ここで H(x) はヘヴィサイドの階段関数である。さらに書き換えて:

\frac{\operatorname{H}\left(\theta-\max_i \{\,x_i\,\}\right)}{\theta^n}\,\!

これはθ だけの関数と見なすことができ、maxi(Xi) = T(X) となる。これから因子分解条件が成り立ち、今度もh(x) は恒等関数である。

ポアソン分布[編集]

X1, ...., Xn を、母数λポアソン分布に従う独立な確率変数とする。和 T(X) = X1 + ... + Xnλ に対する十分統計量である。同時確率は:

\Pr(X=x)=P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n).

観察は独立であるから、次のように書き換えられる:

{e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} 
\lambda^{x_2} \over x_2 !} \cdot\,\cdots\,\cdot {e^{-\lambda} \lambda^{x_n} 
\over x_n !} \,\!

さらに

e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{T(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } \,\!

これから因子分解条件が成り立ち、h(x) は全変数の階乗の積の逆数である。

ラオ・ブラックウェルの定理[編集]

十分統計量 T(X) が与えられればX の条件付き分布はθ によらないので、T(X) が与えられた条件での任意の関数(ただし条件付き期待値が定義できるとする)g(X) の条件付き期待値も母数θ にはよらない。従ってこのような条件付き期待値も統計量であり、推定に用いることができる。

十分性に関して重要な定理に、ラオ・ブラックウェルの定理がある。この定理は、「g(X) をθ推定量(どんな種類の推定量でもよい)とすれば、十分統計量T(X) のもとでのg(X) の条件付き期待値はθ のよい推定量(他の推定量より悪くなることはない)である」というものである。

これを利用して、大雑把な推定量 g(X) が得られたら、これから条件付き期待値を求めることで、最適な推定量が得られる。

関連記事[編集]