ここでは、母数が1つ・推定量が不偏である場合から始めて、いくつかのかなり一般的な場合へと拡張していく。どのバージョンでもある種の正規性の仮定をおくが、それはほとんどの「普通のふるまいをする」確率分布については成り立つものである。この条件については後述する。
クラメール・ラオの限界を、母数が複数の場合にも拡張しよう。母数ベクトル を
θ
=
(
θ
1
,
θ
2
,
…
,
θ
d
)
T
∈
R
d
{\displaystyle {\boldsymbol {\theta }}=\left(\theta _{1},\theta _{2},\dots ,\theta _{d}\right)^{T}\in \mathbb {R} ^{d}}
とし(右肩の T は転置を表す(以下同じ))、それによって決まる確率密度関数
f
(
x
;
θ
)
{\displaystyle f(x;{\boldsymbol {\theta }})}
を考える。
f
{\displaystyle f}
は後述の正規性の条件をみたすものとする。
フィッシャー情報行列 は、
d
×
d
{\displaystyle d\times d}
行列で、その成分
I
m
,
k
{\displaystyle I_{m,k}}
が
I
m
,
k
=
E
[
∂
∂
θ
m
ln
f
(
x
;
θ
)
∂
∂
θ
k
ln
f
(
x
;
θ
)
]
=
−
E
[
∂
2
∂
θ
m
∂
θ
k
ln
f
(
x
;
θ
)
]
{\displaystyle {\begin{aligned}I_{m,k}&=\operatorname {E} \left[{\frac {\partial }{\partial \theta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta _{m}\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\end{aligned}}}
で定まる行列のことである。
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
を、母数ベクトルの任意の推定量としよう:
T
(
X
)
=
(
T
1
(
X
)
,
…
,
T
d
(
X
)
)
T
{\displaystyle {\boldsymbol {T}}(X)=(T_{1}(X),\ldots ,T_{d}(X))^{T}}
。ここで、各成分の平均を並べた平均ベクトル
E
[
T
(
X
)
]
{\displaystyle \operatorname {E} [{\boldsymbol {T}}(X)]}
を
ψ
(
θ
)
{\displaystyle {\boldsymbol {\psi }}({\boldsymbol {\theta }})}
と記す。
このとき、
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
の分散共分散行列 に対するクラメール・ラオの限界は、
Cov
(
T
(
X
)
)
≥
∂
ψ
(
θ
)
∂
θ
(
[
I
(
θ
)
]
−
1
∂
ψ
(
θ
)
∂
θ
)
T
{\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\left([I\left({\boldsymbol {\theta }}\right)]^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\right)^{T}}
となる。ここで、
行列に対する不等式
A
≥
B
{\displaystyle A\geq B}
は、行列の差
A
−
B
{\displaystyle A-B}
が非負定値 であるということである。
∂
ψ
(
θ
)
/
∂
θ
{\displaystyle \partial {\boldsymbol {\psi }}({\boldsymbol {\theta }})/\partial {\boldsymbol {\theta }}}
はヤコビ行列 (
i
j
{\displaystyle ij}
成分が
∂
ψ
i
(
θ
)
/
∂
θ
j
{\displaystyle \partial \psi _{i}({\boldsymbol {\theta }})/\partial \theta _{j}}
)である。
もし
T
(
X
)
{\displaystyle {\boldsymbol {T}}(X)}
が
θ
{\displaystyle {\boldsymbol {\theta }}}
の不偏推定量であれば(つまり
ψ
(
θ
)
=
θ
{\displaystyle {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)={\boldsymbol {\theta }}}
であれば)クラメール・ラオの限界は
Cov
(
T
(
X
)
)
≥
I
(
θ
)
−
1
{\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq I\left({\boldsymbol {\theta }}\right)^{-1}}
のようになる。フィッシャー情報行列の逆行列 を計算するのが面倒な場合は、単に対応する対角成分の逆数をとることで、(より緩いかもしれないが)1つの下限が得られる[ 8] 。
Var
(
T
m
(
X
)
)
=
[
Cov
(
T
(
X
)
)
]
m
m
≥
[
I
(
θ
)
−
1
]
m
m
≥
(
[
I
(
θ
)
]
m
m
)
−
1
{\displaystyle \operatorname {Var} (T_{m}(X))=\left[\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\right]_{mm}\geq \left[I\left({\boldsymbol {\theta }}\right)^{-1}\right]_{mm}\geq \left(\left[I\left({\boldsymbol {\theta }}\right)\right]_{mm}\right)^{-1}}
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
が
θ
{\displaystyle \theta }
で2階偏微分可能であるとすると、フィッシャー情報量は
I
(
θ
)
=
E
[
(
∂
∂
θ
ln
f
(
X
;
θ
)
)
2
]
=
∫
R
f
(
x
;
θ
)
1
(
f
(
x
;
θ
)
)
2
(
∂
f
(
x
;
θ
)
∂
θ
)
2
d
x
=
−
∫
R
f
(
x
;
θ
)
f
(
x
;
θ
)
∂
f
(
x
;
θ
)
∂
θ
−
(
∂
f
(
x
;
θ
)
∂
θ
)
2
(
f
(
x
;
θ
)
)
2
d
x
=
−
∫
R
f
(
x
;
θ
)
(
∂
2
∂
θ
2
ln
f
(
x
;
θ
)
)
d
x
=
−
E
[
∂
2
∂
θ
2
ln
f
(
X
;
θ
)
]
{\displaystyle {\begin{aligned}I(\theta )&=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f(X;\theta )\right)^{2}\right]\\&=\int _{\mathbb {R} }f(x;\theta ){\frac {1}{\left(f(x;\theta )\right)^{2}}}\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta ){\frac {f(x;\theta ){\frac {\partial f(x;\theta )}{\partial \theta }}-\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}}{\left(f(x;\theta )\right)^{2}}}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(x;\theta )\right)\,dx\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}}
(3番目の等号の箇所で
∫
R
∂
f
(
x
;
θ
)
∂
θ
d
x
=
∂
∂
θ
∫
R
f
(
x
;
θ
)
d
x
=
∂
∂
θ
(
1
)
=
0
{\displaystyle \int _{\mathbb {R} }{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0}
であることを用いた)
と変形でき、クラメール・ラオの不等式は次のようにも書ける。
Var
(
θ
^
)
≥
1
I
(
θ
)
=
1
−
E
[
∂
2
∂
θ
2
ln
f
(
X
;
θ
)
]
{\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}={\frac {1}{-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]}}}
こちらの公式の方が下限を評価するのにより有用な場合がある。
母数が1つの場合のクラメール・ラオの不等式を一般的に証明する。
X
{\displaystyle X}
を、確率密度関数が
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
となる確率分布に従う確率変数 とし、
T
=
t
(
X
)
{\displaystyle T=t(X)}
は
X
{\displaystyle X}
の関数で、母数
θ
{\displaystyle \theta }
の関数である
ψ
(
θ
)
{\displaystyle \psi (\theta )}
の不偏推定量であるとする。つまり、
E
[
T
]
=
ψ
(
θ
)
{\displaystyle \operatorname {E} \left[T\right]=\psi (\theta )}
。
目標は、任意の
θ
{\displaystyle \theta }
に対して
Var
(
t
(
X
)
)
≥
[
ψ
′
(
θ
)
]
2
I
(
θ
)
{\displaystyle \operatorname {Var} (t(X))\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}}
を示すことである。
V
{\displaystyle V}
を次のように定義する(これはスコア関数である):
V
=
∂
∂
θ
ln
f
(
X
;
θ
)
=
1
f
(
X
;
θ
)
∂
∂
θ
f
(
X
;
θ
)
{\displaystyle V={\frac {\partial }{\partial \theta }}\ln f(X;\theta )={\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )}
ここで連鎖律 を使った。
V
{\displaystyle V}
の期待値はゼロである。なぜなら:
E
[
V
]
=
∫
R
f
(
x
;
θ
)
[
1
f
(
x
;
θ
)
∂
∂
θ
f
(
x
;
θ
)
]
d
x
=
∂
∂
θ
∫
R
f
(
x
;
θ
)
d
x
=
∂
∂
θ
(
1
)
=
0
{\displaystyle {\begin{aligned}\operatorname {E} \left[V\right]&=\int _{\mathbb {R} }f(x;\theta )\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx\\&={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0\end{aligned}}}
ここで積分と偏微分の順序が交換可能であること(正規性の条件の2番目)を使った。
V
{\displaystyle V}
と
T
{\displaystyle T}
の共分散
Cov
(
V
,
T
)
{\displaystyle \operatorname {Cov} (V,T)}
は、
E
[
V
]
=
0
{\displaystyle \operatorname {E} \left[V\right]=0}
だから
Cov
(
V
,
T
)
=
E
[
V
T
]
{\displaystyle \operatorname {Cov} (V,T)=\operatorname {E} \left[VT\right]}
、よって次式を得る。
Cov
(
V
,
T
)
=
E
[
T
⋅
{
1
f
(
X
;
θ
)
∂
∂
θ
f
(
X
;
θ
)
}
]
=
∫
R
t
(
x
)
[
1
f
(
x
;
θ
)
∂
∂
θ
f
(
x
;
θ
)
]
f
(
x
;
θ
)
d
x
=
∂
∂
θ
[
∫
R
t
(
x
)
f
(
x
;
θ
)
d
x
]
=
∂
∂
θ
E
[
T
]
=
ψ
′
(
θ
)
{\displaystyle {\begin{aligned}\operatorname {Cov} (V,T)&=\operatorname {E} \left[T\cdot \left\{{\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )\right\}\right]\\[6pt]&=\int _{\mathbb {R} }t(x)\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]f(x;\theta )\,dx\\[6pt]&={\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }t(x)f(x;\theta )\,dx\right]={\frac {\partial }{\partial \theta }}\operatorname {E} \left[T\right]=\psi ^{\prime }(\theta )\end{aligned}}}
ここで再び、積分と微分が交換可能であるという条件(正規性の条件の2番目)を使った。
コーシー・シュワルツの不等式 から、
Var
(
T
)
Var
(
V
)
≥
|
Cov
(
V
,
T
)
|
=
|
ψ
′
(
θ
)
|
{\displaystyle {\sqrt {\operatorname {Var} (T)\operatorname {Var} (V)}}\geq \left|\operatorname {Cov} (V,T)\right|=\left|\psi ^{\prime }(\theta )\right|}
よって
Var
(
T
)
≥
[
ψ
′
(
θ
)
]
2
Var
(
V
)
=
[
ψ
′
(
θ
)
]
2
I
(
θ
)
{\displaystyle \operatorname {Var} (T)\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{\operatorname {Var} (V)}}={\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}}
これが示したかったことである。
確率変数列
X
1
,
X
2
,
⋯
,
X
n
{\displaystyle X_{1},X_{2},\cdots ,X_{n}}
を使って推定を行う場合について、未知母数が1つ(
θ
{\displaystyle \theta }
)のときに絞って概要を述べる。
X
:=
(
X
1
,
X
2
,
⋯
,
X
n
)
{\displaystyle {\boldsymbol {X}}:=(X_{1},X_{2},\cdots ,X_{n})}
と書くことにする。
尤度関数は、結合確率密度関数
f
n
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
f
n
(
x
;
θ
)
{\displaystyle f_{n}(x_{1},x_{2},\cdots ,x_{n};\theta )=f_{n}({\boldsymbol {x}};\theta )}
で与えられる(標本の値
x
{\displaystyle {\boldsymbol {x}}}
が代入されたとして
θ
{\displaystyle \theta }
の関数とみなしている)。
スコア関数は、尤度関数の自然対数をとってから
θ
{\displaystyle \theta }
で偏微分したものである。
∂
∂
θ
ln
f
n
(
x
;
θ
)
{\displaystyle {\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )}
これらはいずれも実数値関数であるので、
I
(
θ
)
=
E
[
(
∂
∂
θ
ln
f
n
(
X
;
θ
)
)
2
]
{\displaystyle I(\theta )=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {X}};\theta )\right)^{2}\right]}
となる。
本記事でここまでに述べた事柄は、次の置き換えをすれば基本的に全て同じ形式で成り立つ。
X
→
X
,
x
→
x
,
∫
R
(
⋯
)
d
x
→
∫
R
n
(
⋯
)
d
x
{\displaystyle X\to {\boldsymbol {X}},\quad x\to {\boldsymbol {x}},\quad \int _{\mathbb {R} }(\cdots )\,dx\to \int _{\mathbb {R} ^{n}}(\cdots )\,d{\boldsymbol {x}}}
特に、確率変数列
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
{\displaystyle {\boldsymbol {X}}=(X_{1},X_{2},\cdots ,X_{n})}
が独立同分布 で、その確率密度関数が
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
であるとすると、
尤度関数は
f
n
(
x
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
{\displaystyle f_{n}({\boldsymbol {x}};\theta )=\prod _{i=1}^{n}f(x_{i};\theta )}
スコア関数は
∂
∂
θ
ln
f
n
(
x
;
θ
)
=
∑
i
=
1
n
(
∂
∂
θ
ln
f
(
x
i
;
θ
)
)
{\displaystyle {\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )=\sum _{i=1}^{n}\left({\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right)}
フィッシャー情報量は
I
(
θ
)
=
−
E
[
∂
2
∂
θ
2
ln
f
n
(
X
;
θ
)
]
=
−
E
[
∂
2
∂
θ
2
∑
i
=
1
n
{
ln
f
(
X
i
;
θ
)
}
]
=
−
∑
i
=
1
n
(
E
[
∂
2
∂
θ
2
{
ln
f
(
X
;
θ
)
}
]
)
=
−
n
E
[
∂
2
∂
θ
2
ln
f
(
X
;
θ
)
]
{\displaystyle {\begin{aligned}I(\theta )&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f_{n}({\boldsymbol {X}};\theta )\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\sum _{i=1}^{n}\{\ln f(X_{i};\theta )\}\right]\\&=-\sum _{i=1}^{n}\left(\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\{\ln f(X;\theta )\}\right]\right)\\&=-n\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}}
となる。
↑ Cramér, Harald (1946). Mathematical Methods of Statistics . Princeton, NJ: Princeton Univ. Press. ISBN 0-691-08004-6 . OCLC 185436716
↑ Rao, Calyampudi Radakrishna (1945). “Information and the accuracy attainable in the estimation of statistical parameters”. Bulletin of the Calcutta Mathematical Society 37 : 81–89. MR 0015748 .
↑ Rao, Calyampudi Radakrishna (1994). S. Das Gupta. ed. Selected Papers of C. R. Rao . New York: Wiley. ISBN 978-0-470-22091-7 . OCLC 174244259
↑ Darmois, Georges (1945). “Sur les limites de la dispersion de certaines estimations”. Rev. Int. Inst. Statist. 13 : 9–15.
↑ Fréchet, Maurice (1943). “Sur l'extension de certaines évaluations statistiques au cas de petit échantillons”. Rev. Inst. Int. Statist. 11 : 182–205.
↑ Gart, John J. (1958). “An extension of the Cramér–Rao inequality”. Ann. Math. Stat. 29 : 367–380.
↑ Malécot, Gustave (1999). “Statistical methods and the subjective basis of scientific knowledge [ translated from Année X 1947 by Daniel Gianola] ”. Genet. Sel. Evol. 31 : 269–298.
↑ For the Bayesian case, see eqn. (11) of Bobrovsky; Mayer-Wolf; Zakai (1987). “Some classes of global Cramer–Rao bounds”. Ann. Stat. 15 (4): 1421–38.
↑ Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory . Prentice Hall. p. 47. ISBN 0-13-042268-1
Bos, Adriaan van den (2007). Parameter Estimation for Scientists and Engineers . Hoboken: John Wiley & Sons . pp. 45–98. ISBN 0-470-14781-4
Kay, Steven M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory . Prentice Hall. ISBN 0-13-345711-7 . Chapter 3.
Shao, Jun (1998). Mathematical Statistics . New York: Springer . ISBN 0-387-98674-X . Section 3.1.3.