フィッシャー情報量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

フィッシャー情報量(フィッシャーじょうほうりょう、: Fisher information\mathcal{I}_X(\theta)統計学情報理論で登場する量で、確率変数X母数\thetaに関して持つ「情報」の量を表す。統計学者ロナルド・フィッシャーに因んで名付けられた。

定義[編集]

\theta母数とし、Xを確率密度関数がf(x|\theta)で表される確率変数とする。 このとき、\theta尤度関数L(\theta|x)

L(\theta|x)=f(x|\theta)\,

で定義され、スコア関数は対数尤度関数の微分

V(x;\theta)=\frac{\partial}{\partial\theta} \ln L(\theta|x)

により定義される。このとき、フィッシャー情報量\mathcal{I}_X(\theta)はスコア関数の2次のモーメント


\begin{align}
\mathcal{I}_X(\theta)
& =\mathrm{E}[V(x;\theta)^2|\theta] \\
& =\mathrm{E} \left[ \left. \biggl(\frac{\partial}{\partial\theta} \ln L(\theta|x) \biggr)^2 \right|\, \theta \right]
\end{align}

により定義される。紛れがなければ添え字のXを省略し、\mathcal{I}(\theta)とも表記する。なお、Xに関しては期待値が取られている為、フィッシャー情報量はXの従う確率密度関数f(x|\theta)のみに依存して決まる。よってXYが同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。

スコア関数は

\mathrm{E}[V(x;\theta)|\theta]=0\,

を満たす事が知られているので、

\mathcal{I}_X(\theta)=\mathrm{var}(V(x;\theta))

が成立する。ここで\mathrm{var}分散を表す。

また\ln f(x|\theta)が二回微分可能で以下の標準化条件

\int \frac{\partial^2}{\partial \theta^2}f(X ; \theta ) \, dx=0,

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。


\mathcal{I}(\theta) =- \mathrm{E} \left[ \frac{\partial^2}{\partial\theta^2} \ln f(X;\theta) \right].

このとき、フィッシャー情報量は、f対数\thetaについての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、\thetaについての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列[編集]

パラメータがN個の場合、つまり、\mathbf{\theta}N次のベクトル\theta = ( \theta_{1}, \theta_{2}, \cdots , \theta_{N} )^Tであるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。


\mathcal{I} (\mathbf{\theta} )=
\mathrm{E}
\left[
 \frac{\partial}{\partial \mathbf{\theta}} \ln f(X;\theta)
 \frac{\partial}{\partial \mathbf{\theta}^T } \ln f(X;\theta)
\right].

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。


{\left(\mathcal{I} \left(\theta \right) \right)}_{i, j}
=
\mathrm{E}
\left[
 \frac{\partial}{\partial\theta_i} \ln f(X;\theta)
 \frac{\partial}{\partial\theta_j} \ln f(X;\theta)
\right].

フィッシャー情報行列は、NxN正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

p個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、\theta_{i}\theta_{j}直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質[編集]

フィッシャー情報量は

0 \leq \mathcal{I}(\theta) < \infty\,

を満たす。

またXY独立な確率変数であれば、

 \mathcal{I}_{X,Y}(\theta) = \mathcal{I}_X(\theta) + \mathcal{I}_Y(\theta) (フィッシャー情報量の加算性)

が成立する。すなわち、「(X,Y)\thetaに関して持つ情報の量」は 「X\thetaに関して持つ情報の量」と 「Y\thetaに関して持つ情報の量」の和である。

よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。

Cramér–Raoの不等式[編集]

\thetaの任意の不偏推定量\hat{\theta}は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:

\mathrm{var}(\hat{\theta})\ge \frac{1}{\mathcal{I}(\theta)}\,

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数Xへの依存関係を明示すると、

\mathcal{I}_X(\theta)\ge\frac{1}{\mathrm{var}(\hat{\theta}(X))}\,

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数\thetaに近い値を出しやすいので、「よい」推定量であると言える。\thetaを「推定する」という行為は、「よい」推定量\hat{\theta}(X)を使って\thetaを可能な限り復元する行為に他ならないが、上の不等式はXから算出されたどんな不偏推定量であってもXが元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。

十分統計量との関係[編集]

一般にT =t(X)統計量であるならば、


\mathcal{I}_T(\theta)
\leq
\mathcal{I}_X(\theta)

が成立する。すなわち、「Xから計算される値T=t(X)が持っている\thetaの情報」は「X自身が持っている\thetaの情報」よりも大きくない。

上式で等号成立する必要十分条件はT十分統計量であること。 これはT(X)\thetaに対して十分統計量であるならば、ある関数fおよびgが存在して

 f(X;\theta) = g(T(X), \theta) h(X)

が成り立つ(ネイマン分解基準)事を使って証明できる。

カルバック・ライブラー情報量との関係[編集]

X_\thetaを母数\vec{\theta}=(\theta_1,\ldots,\theta_n)を持つ確率変数とすると、カルバック・ライブラー情報量 D_{\mathrm{KL}}とフィッシャー情報行列は以下の関係が成り立つ。

D_{\mathrm{KL}}(X_{\vec{\theta} + \vec{h}}\|X_{\vec{\theta}}) = \frac{{}^t\vec{h} \cdot \mathcal{I}(\vec{\theta})\cdot \vec{h}}{2} + o(|\vec{h}|^2)

すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。

具体例[編集]

ベルヌーイ分布[編集]

ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。

n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、


\begin{align}
\frac{\partial^2}{\partial\theta^2} \ln{f(A;\theta)}
& =
 \frac{\partial^2}{\partial\theta^2} \ln
 \left[
  \theta^A(1-\theta)^B\frac{(A+B)!}{A!B!}
 \right] \\
& =
 \frac{\partial^2}{\partial\theta^2} 
 \left[
  A \ln (\theta) + B \ln(1-\theta)
 \right] \\
& =
 \frac{A}{\theta^2} + \frac{B}{(1-\theta)^2}
\end{align}

であるから、


\begin{align}
\mathcal{I}(\theta)
& =
-\mathrm{E}
\left[
 \frac{\partial^2}{\partial\theta^2} \ln(f(A;\theta))
\right] \\
& =
\frac{n\theta}{\theta^2} + \frac{n(1-\theta)}{(1-\theta)^2}
\end{align}

となる。但し、Aの期待値はn θB の期待値はn (1-θ )であることを用いた 。

つまり、最終的な結果は、

\mathcal{I}(\theta) = \frac{n}{\theta(1-\theta)},

である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。

ガンマ分布[編集]

形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は


\mathcal{I}(\alpha, \beta)
=
\begin{pmatrix}
\psi'(\alpha) & \frac{1}{\beta} \\
\frac{1}{\beta} & \frac{\alpha}{\beta^2}
\end{pmatrix}

で与えられる。但し、ψ(α)はディガンマ関数を表す。

正規分布[編集]

平均μ、分散σ2正規分布N(μ, σ2)において、フィッシャー情報行列は


\mathcal{I}(\mu, \sigma^2)
=
\begin{pmatrix}
\frac{1}{\sigma^2} & 0 \\
0 & \frac{1}{2(\sigma^2)^2}
\end{pmatrix}

で与えられる。

多変量正規分布[編集]

N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。

\mu(\theta) = \begin{pmatrix}
 \mu_{1}(\theta), \mu_{2}(\theta), \cdots , \mu_{N}(\theta) \end{pmatrix},

であるとし、\Sigma(\theta)\mu(\theta)共分散行列であるとするなら、

XN(\mu(\theta), \Sigma(\theta))のフィッシャー情報行列、\mathcal{I}_{m,n} \, (0\le;m,n<N)の成分は以下の式で与えられる。


\mathcal{I}_{m,n}
=
\frac{\partial \mu}{\partial \theta_m}
\Sigma^{-1}
\frac{\partial \mu^\top}{\partial \theta_n}
+
\frac{1}{2}
\mathrm{tr}
\left(
 \Sigma^{-1}
 \frac{\partial \Sigma}{\partial \theta_m}
 \Sigma^{-1}
 \frac{\partial \Sigma}{\partial \theta_n}
\right),

ここで、(..)^\topはベクトルの転置を示す記号であり、\mathrm{tr}(..)は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。


\frac{\partial \mu}{\partial \theta_m}
=\begin{pmatrix}
 \frac{\partial \mu_1}{\partial \theta_m}, &
 \frac{\partial \mu_2}{\partial \theta_m}, &
 \cdots, &
 \frac{\partial \mu_N}{\partial \theta_m} 
\end{pmatrix}

\frac{\partial \Sigma}{\partial \theta_m}
=
\begin{pmatrix}
 \frac{\partial \Sigma_{1,1}}{\partial \theta_m} &
 \frac{\partial \Sigma_{1,2}}{\partial \theta_m} &
 \cdots &
 \frac{\partial \Sigma_{1,N}}{\partial \theta_m} \\  \\
 \frac{\partial \Sigma_{2,1}}{\partial \theta_m} &
 \frac{\partial \Sigma_{2,2}}{\partial \theta_m} &
 \cdots &
 \frac{\partial \Sigma_{2,N}}{\partial \theta_m} \\  \\
 \vdots & \vdots & \ddots & \vdots \\  \\
 \frac{\partial \Sigma_{N,1}}{\partial \theta_m} &
 \frac{\partial \Sigma_{N,2}}{\partial \theta_m} &
 \cdots &
 \frac{\partial \Sigma_{N,N}}{\partial \theta_m}
\end{pmatrix}.

関連項目[編集]

情報理論で用いられる他の情報の測度。

参考文献[編集]

Wikipedia英語版 http://en.wikipedia.org/wiki/Fisher_information