フィッシャー情報量
フィッシャー情報量(フィッシャーじょうほうりょう、英: Fisher information )
は統計学や情報理論で登場する量で、確率変数
が母数
に関して持つ「情報」の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。
目次 |
[編集] 定義
を母数とし、
を確率密度関数が
で表される確率変数とする。 このとき、
の尤度関数
は
で定義され、スコア関数は対数尤度関数の微分
により定義される。このとき、フィッシャー情報量
はスコア関数の2次のモーメント
により定義される。紛れがなければ添え字の
を省略し、
とも表記する。なお、
に関しては期待値が取られている為、フィッシャー情報量は
の従う確率密度関数
のみに依存して決まる。よって
と
が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。
スコア関数は
を満たす事が知られているので、
が成立する。ここで
は分散を表す。
また
が二回微分可能で以下の標準化条件
を満たすなら、フィッシャー情報量は以下のように書き換えることができる。
このとき、フィッシャー情報量は、
の対数の
についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、
についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。
[編集] フィッシャー情報行列
パラメータがN個の場合、つまり、
がN次のベクトル
であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。
これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。
フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。
個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、
と
は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。
[編集] 基本的性質
フィッシャー情報量は
を満たす。
また
,
が独立な確率変数であれば、
(フィッシャー情報量の加算性)
が成立する。すなわち、「
が
に関して持つ情報の量」は 「
が
に関して持つ情報の量」と 「
が
に関して持つ情報の量」の和である。
よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。
[編集] Cramér–Raoの不等式
の任意の不偏推定量
は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:
この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数
への依存関係を明示すると、
となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数
に近い値を出しやすいので、「よい」推定量であると言える。
を「推定する」という行為は、「よい」推定量
を使って
を可能な限り復元する行為に他ならないが、上の不等式は
から算出されたどんな不偏推定量であっても
が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。
[編集] 十分統計量との関係
一般に
が統計量であるならば、
が成立する。すなわち、「
から計算される値
が持っている
の情報」は「
自身が持っている
の情報」よりも大きくない。
上式で等号成立する必要十分条件は
が十分統計量であること。 これは
が
に対して十分統計量であるならば、ある関数
および
が存在して
が成り立つ(ネイマン分解基準)事を使って証明できる。
[編集] カルバック・ライブラー情報量との関係
を母数
を持つ確率変数とすると、カルバック・ライブラー情報量
に対して、以下の関係が成り立つ。
[編集] 具体例
[編集] ベルヌーイ分布
ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。
n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、
であるから、
となる。但し、Aの期待値はn θ、B の期待値はn (1-θ )であることを用いた 。
つまり、最終的な結果は、
である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。
[編集] ガンマ分布
形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は
で与えられる。但し、ψ(α)はディガンマ関数を表す。
[編集] 正規分布
平均μ、分散σ2の正規分布N(μ, σ2)において、フィッシャー情報行列は
で与えられる。
[編集] 多変量正規分布
N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。
であるとし、
が
の共分散行列であるとするなら、
~
のフィッシャー情報行列、
の成分は以下の式で与えられる。
ここで、
はベクトルの転置を示す記号であり、
は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。
[編集] 関連項目
情報理論で用いられる他の情報の測度。
[編集] 参考文献
Wikipedia英語版 http://en.wikipedia.org/wiki/Fisher_information


![\begin{align}
\mathcal{I}_X(\theta)
& =\mathrm{E}[V(x;\theta)^2|\theta] \\
& =\mathrm{E} \left[ \left. \biggl(\frac{\partial}{\partial\theta} \ln L(\theta|x) \biggr)^2 \right|\, \theta \right]
\end{align}](http://upload.wikimedia.org/math/1/6/d/16d42147b40dc414475692630baaa13f.png)
![\mathrm{E}[V(x;\theta)|\theta]=0\,](http://upload.wikimedia.org/math/d/9/b/d9bf8de1ae622adf012b4456211f65e1.png)


![\mathcal{I}(\theta) =- \mathrm{E} \left[ \frac{\partial^2}{\partial\theta^2} \ln f(X;\theta) \right].](http://upload.wikimedia.org/math/a/7/b/a7b9dfe3952c05fe4da3f17c417e6cb9.png)
![\mathcal{I} (\mathbf{\theta} )=
\mathrm{E}
\left[
\frac{\partial}{\partial \mathbf{\theta}} \ln f(X;\theta)
\frac{\partial}{\partial \mathbf{\theta}^T } \ln f(X;\theta)
\right].](http://upload.wikimedia.org/math/4/9/9/4990d4307e87f6b5da88b9e72de57662.png)
![{\left(\mathcal{I} \left(\theta \right) \right)}_{i, j}
=
\mathrm{E}
\left[
\frac{\partial}{\partial\theta_i} \ln f(X;\theta)
\frac{\partial}{\partial\theta_j} \ln f(X;\theta)
\right].](http://upload.wikimedia.org/math/d/4/f/d4f439918f7881fac20349c6ef3c9dc3.png)

(フィッシャー情報量の加算性)




![\begin{align}
\frac{\partial^2}{\partial\theta^2} \ln{f(A;\theta)}
& =
\frac{\partial^2}{\partial\theta^2} \ln
\left[
\theta^A(1-\theta)^B\frac{(A+B)!}{A!B!}
\right] \\
& =
\frac{\partial^2}{\partial\theta^2}
\left[
A \ln (\theta) + B \ln(1-\theta)
\right] \\
& =
\frac{A}{\theta^2} + \frac{B}{(1-\theta)^2}
\end{align}](http://upload.wikimedia.org/math/6/4/f/64fc01082832d0444343f17408b0b902.png)
![\begin{align}
\mathcal{I}(\theta)
& =
-\mathrm{E}
\left[
\frac{\partial^2}{\partial\theta^2} \ln(f(A;\theta))
\right] \\
& =
\frac{n\theta}{\theta^2} + \frac{n(1-\theta)}{(1-\theta)^2}
\end{align}](http://upload.wikimedia.org/math/4/6/7/467378c0a198ab76a77d74a4e00244cf.png)






