| この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "フィッシャー情報量" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2016年10月) |
フィッシャー情報量(フィッシャーじょうほうりょう、英: Fisher information
)
は、統計学や情報理論で登場する量で、確率変数
が母数
に関して持つ「情報」の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。
を母数とし、
を確率密度関数が
で表される確率変数とする。
このとき、
の尤度関数
は
![{\displaystyle L(\theta |x)=f(x|\theta )\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9a23ce6fbd80c3a66eae84db424791b7278d7a54)
で定義され、スコア関数は対数尤度関数の微分
![{\displaystyle V(x;\theta )={\frac {\partial }{\partial \theta }}\ln L(\theta |x)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5532ba5c98faebd52cc840609950e44d1fc92553)
により定義される。このとき、フィッシャー情報量
はスコア関数の2次のモーメント
![{\displaystyle {\begin{aligned}{\mathcal {I}}_{X}(\theta )&=\mathrm {E} [V(x;\theta )^{2}|\theta ]\\&=\mathrm {E} \left[\left.{\biggl (}{\frac {\partial }{\partial \theta }}\ln L(\theta |x){\biggr )}^{2}\right|\,\theta \right]\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c0972dbcbdd7c40679d98b05df3179db7f3c1082)
により定義される。紛れがなければ添え字の
を省略し、
とも表記する。なお、
に関しては期待値が取られている為、フィッシャー情報量は
の従う確率密度関数
のみに依存して決まる。よって
と
が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。
スコア関数は
![{\displaystyle \mathrm {E} [V(x;\theta )|\theta ]=0\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1301bca3b9932f3f1b39891a5edb2cae4a8877d7)
を満たす事が知られているので、
![{\displaystyle {\mathcal {I}}_{X}(\theta )=\mathrm {var} (V(x;\theta ))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3fccc10efcd0b65ee16a3770f8b0c8a79aa3a327)
が成立する。ここで
は分散を表す。
また
が二回微分可能で以下の標準化条件
![{\displaystyle \int {\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )\,dx=0,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0a92cde6f24edad4c095e841fa623b541cc0e16e)
を満たすなら、フィッシャー情報量は以下のように書き換えることができる。
![{\displaystyle {\mathcal {I}}(\theta )=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ef233fe1aa86d6a930003dc08083d6a0c1e5fae6)
このとき、フィッシャー情報量は、
の対数の
についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、
についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。
フィッシャー情報行列[編集]
パラメータがN個の場合、つまり、
がN次のベクトル
であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。
![{\displaystyle {\mathcal {I}}(\mathbf {\theta } )=\mathrm {E} \left[{\frac {\partial }{\partial \mathbf {\theta } }}\ln f(X;\theta ){\frac {\partial }{\partial \mathbf {\theta } ^{T}}}\ln f(X;\theta )\right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5bc13cfaedd8d144a1b2c0e61bfe651f47bcf551)
これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。
![{\displaystyle {\left({\mathcal {I}}\left(\theta \right)\right)}_{i,j}=\mathrm {E} \left[{\frac {\partial }{\partial \theta _{i}}}\ln f(X;\theta ){\frac {\partial }{\partial \theta _{j}}}\ln f(X;\theta )\right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/06d3c094ee951007b339b58423b7af22b8f7058e)
フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。
個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、
と
は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。
基本的性質[編集]
フィッシャー情報量は
![{\displaystyle 0\leq {\mathcal {I}}(\theta )<\infty \,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/19fac7e680b642fef9f21faad6fd8c702cdedf5b)
を満たす。
また
,
が独立な確率変数であれば、
(フィッシャー情報量の加算性)
が成立する。すなわち、「
が
に関して持つ情報の量」は
「
が
に関して持つ情報の量」と
「
が
に関して持つ情報の量」の和である。
よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。
Cramér–Raoの不等式[編集]
の任意の不偏推定量
は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:
![{\displaystyle \mathrm {var} ({\hat {\theta }})\geq {\frac {1}{{\mathcal {I}}(\theta )}}\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3dc089db82f5571f6dda6a26ec48fd5118f2656e)
この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数
への依存関係を明示すると、
![{\displaystyle {\mathcal {I}}_{X}(\theta )\geq {\frac {1}{\mathrm {var} ({\hat {\theta }}(X))}}\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd6d1e7e1b40964109878ded8f8b962a3f16a2be)
となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数
に近い値を出しやすいので、「よい」推定量であると言える。
を「推定する」という行為は、「よい」推定量
を使って
を可能な限り復元する行為に他ならないが、上の不等式は
から算出されたどんな不偏推定量であっても
が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。
十分統計量との関係[編集]
一般に
が統計量であるならば、
![{\displaystyle {\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0cc27525152a3f4c8624ee072f338dda951714ec)
が成立する。すなわち、「
から計算される値
が持っている
の情報」は「
自身が持っている
の情報」よりも大きくない。
上式で等号成立する必要十分条件は
が十分統計量であること。
これは
が
に対して十分統計量であるならば、ある関数
および
が存在して
![{\displaystyle f(X;\theta )=g(T(X),\theta )h(X)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/08c98be43657512874c1611ebe40178ff312e731)
が成り立つ(ネイマン分解基準)事を使って証明できる。
カルバック・ライブラー情報量との関係[編集]
を母数
を持つ確率変数とすると、カルバック・ライブラー情報量
とフィッシャー情報行列は以下の関係が成り立つ。
![{\displaystyle D_{\mathrm {KL} }(X_{{\vec {\theta }}+{\vec {h}}}\|X_{\vec {\theta }})={\frac {{}^{t}{\vec {h}}\cdot {\mathcal {I}}({\vec {\theta }})\cdot {\vec {h}}}{2}}+o(|{\vec {h}}|^{2})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bdca38e8800b3135982f3ddf73d757970ab56181)
すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。
具体例[編集]
ベルヌーイ分布[編集]
ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。
n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、
![{\displaystyle {\begin{aligned}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln {f(A;\theta )}&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln \left[\theta ^{A}(1-\theta )^{B}{\frac {(A+B)!}{A!B!}}\right]\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\left[A\ln(\theta )+B\ln(1-\theta )\right]\\&=-{\frac {A}{\theta ^{2}}}-{\frac {B}{(1-\theta )^{2}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bbb259695a93e5999c2fc8fe679c8f79f2c98bac)
であるから、
![{\displaystyle {\begin{aligned}{\mathcal {I}}(\theta )&=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln(f(A;\theta ))\right]\\&={\frac {n\theta }{\theta ^{2}}}+{\frac {n(1-\theta )}{(1-\theta )^{2}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/995573eb1780f8d3a74acb53b1f32dd40abfc658)
となる。但し、Aの期待値はn θ、B の期待値はn (1-θ )であることを用いた 。
つまり、最終的な結果は、
![{\displaystyle {\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0dc6aa3c4cd37f2f2cf2904563c161171d95fb56)
である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。
ガンマ分布[編集]
形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は
![{\displaystyle {\mathcal {I}}(\alpha ,\beta )={\begin{pmatrix}\psi '(\alpha )&{\frac {1}{\beta }}\\{\frac {1}{\beta }}&{\frac {\alpha }{\beta ^{2}}}\end{pmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4a46328e3902a23620c71590e2f183492242a30b)
で与えられる。但し、ψ(α)はディガンマ関数を表す。
正規分布[編集]
平均μ、分散σ2の正規分布N(μ, σ2)において、フィッシャー情報行列は
![{\displaystyle {\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {1}{2(\sigma ^{2})^{2}}}\end{pmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f804e3160cd68fdef25c0efeae1ddc1f3cb32ff0)
で与えられる。
多変量正規分布[編集]
N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。
![{\displaystyle \mu (\theta )={\begin{pmatrix}\mu _{1}(\theta ),\mu _{2}(\theta ),\cdots ,\mu _{N}(\theta )\end{pmatrix}},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/12f2f3b74be7591b4aa9e68ba74529703f4775de)
であるとし、
が
の共分散行列であるとするなら、
~
のフィッシャー情報行列、
の成分は以下の式で与えられる。
![{\displaystyle {\mathcal {I}}_{m,n}={\frac {\partial \mu }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu ^{\top }}{\partial \theta _{n}}}+{\frac {1}{2}}\mathrm {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7af36e19044ee0bfb2e7a2fc2f54bc7db3a6f516)
ここで、
はベクトルの転置を示す記号であり、
は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。
![{\displaystyle {\frac {\partial \mu }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}},&{\frac {\partial \mu _{2}}{\partial \theta _{m}}},&\cdots ,&{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{pmatrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8a6b4a86ea2e994a376c6233a8dd7b003d19de1a)
![{\displaystyle {\frac {\partial \Sigma }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\\\{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{pmatrix}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/632e7d163aec657324991987073c65a6841a3dab)
関連項目[編集]