フィッシャー情報量

フィッシャー情報量（フィッシャーじょうほうりょう、英: Fisher information ） ${\mathcal {I}}_{X}(\theta )$ は、統計学や情報理論で登場する量で、確率変数 $X$ が母数 $\theta$ に関して持つ「情報」の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。

定義[編集]

$\theta$ を母数とし、 $X$ を確率密度関数が $f(x|\theta )$ で表される確率変数とする。このとき、 $\theta$ の尤度関数 $L(\theta |x)$ は

L(\theta |x)=f(x|\theta )\,

で定義され、スコア関数は対数尤度関数の微分

V(x;\theta )={\frac {\partial }{\partial \theta }}\ln L(\theta |x)

により定義される。このとき、フィッシャー情報量 ${\mathcal {I}}_{X}(\theta )$ はスコア関数の2次のモーメント

{\begin{aligned}{\mathcal {I}}_{X}(\theta )&=\mathrm {E} [V(x;\theta )^{2}|\theta ]\\&=\mathrm {E} \left[\left.{\biggl (}{\frac {\partial }{\partial \theta }}\ln L(\theta |x){\biggr )}^{2}\right|\,\theta \right]\end{aligned}}

により定義される。紛れがなければ添え字の $X$ を省略し、 ${\mathcal {I}}(\theta )$ とも表記する。なお、 $X$ に関しては期待値が取られている為、フィッシャー情報量は $X$ の従う確率密度関数 $f(x|\theta )$ のみに依存して決まる。よって $X$ と $Y$ が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。

スコア関数は

\mathrm {E} [V(x;\theta )|\theta ]=0\,

を満たす事が知られているので、

{\mathcal {I}}_{X}(\theta )=\mathrm {var} (V(x;\theta ))

が成立する。ここで $\mathrm {var}$ は分散を表す。

また $\ln f(x|\theta )$ が二回微分可能で以下の標準化条件

\int {\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )\,dx=0,

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。

{\mathcal {I}}(\theta )=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right].

このとき、フィッシャー情報量は、 $f$ の対数の $\theta$ についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、 $\theta$ についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」（つまり、浅い最大値を持つ）サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列[編集]

パラメータがN個の場合、つまり、 $\mathbf {\theta }$ がN次のベクトル $\theta =(\theta _{1},\theta _{2},\cdots ,\theta _{N})^{T}$ であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。

{\mathcal {I}}(\mathbf {\theta } )=\mathrm {E} \left[{\frac {\partial }{\partial \mathbf {\theta } }}\ln f(X;\theta ){\frac {\partial }{\partial \mathbf {\theta } ^{T}}}\ln f(X;\theta )\right].

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。

{\left({\mathcal {I}}\left(\theta \right)\right)}_{i,j}=\mathrm {E} \left[{\frac {\partial }{\partial \theta _{i}}}\ln f(X;\theta ){\frac {\partial }{\partial \theta _{j}}}\ln f(X;\theta )\right].

フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

$p$ 個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、 $\theta _{i}$ と $\theta _{j}$ は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質[編集]

フィッシャー情報量は

0\leq {\mathcal {I}}(\theta )<\infty \,

を満たす。

また $X$ ， $Y$ が独立な確率変数であれば、

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta )

　(フィッシャー情報量の加算性）

が成立する。すなわち、「 $(X,Y)$ が $\theta$ に関して持つ情報の量」は「 $X$ が $\theta$ に関して持つ情報の量」と「 $Y$ が $\theta$ に関して持つ情報の量」の和である。

よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である（観察が独立である場合）。

Cramér–Raoの不等式[編集]

$\theta$ の任意の不偏推定量 ${\hat {\theta }}$ は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす：

\mathrm {var} ({\hat {\theta }})\geq {\frac {1}{{\mathcal {I}}(\theta )}}\,

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数 $X$ への依存関係を明示すると、

{\mathcal {I}}_{X}(\theta )\geq {\frac {1}{\mathrm {var} ({\hat {\theta }}(X))}}\,

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数 $\theta$ に近い値を出しやすいので、「よい」推定量であると言える。 $\theta$ を「推定する」という行為は、「よい」推定量 ${\hat {\theta }}(X)$ を使って $\theta$ を可能な限り復元する行為に他ならないが、上の不等式は $X$ から算出されたどんな不偏推定量であっても $X$ が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。