分散共分散行列

統計学と確率論において分散共分散行列（ぶんさんきょうぶんさんぎょうれつ、Variance-covariance matrix）とは、ベクトルの要素間の共分散の行列である。これは、スカラー値をとる確率変数における分散の概念を、多次元に自然に拡張したものである。

定義

次のような列ベクトルを考える。

{\textbf {X}}={\begin{bmatrix}X_{1}\\X_{2}\\\vdots \\X_{n}\end{bmatrix}}

このベクトルの要素が各々分散が有限である確率変数であるとき、(i, j)の要素が次のような行列Σを分散共分散行列という。

\Sigma _{ij}=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}=\mathrm {E} (X_{i}X_{j})-\mathrm {E} (X_{i})\mathrm {E} (X_{j})

ただし、

\mu _{i}=\mathrm {E} (X_{i})\,

は、ベクトルXのi番目の要素の期待値である。すなわち、Σは次のような行列である。

\Sigma ={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}.

この行列の逆行列は $\Sigma ^{-1}\quad$ は、inverse covariance matrix または、precision matrix と呼ばれる。^[1]

分散の一般化としてみたとき

上記の定義は、下記の等式と同値である。

\Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]

この形は、スカラー値における分散を高次元に拡張したものと捉えられる。スカラー値を取る確率変数Xについて、次が成り立つことに注意する。

\sigma ^{2}=\mathrm {var} (X)=\mathrm {E} [(X-\mu )^{2}],\,

ただし、

\mu =\mathrm {E} (X).\,

$\Sigma$ が、分散共分散行列と呼ばれるのは、対角要素は分散だからである。

名称の問題

この行列の名前の呼び名には、いくつかの異なった流儀がある。統計学者の一部は、William Fellerにならって、この行列が1 次元の分散の自然な拡張であることから、この行列を確率変数のベクトル $X$ の分散と呼ぶ。また、この行列がベクトルXのスカラー要素の共分散であることから、この行列を共分散行列と呼ぶ流儀もある。すなわち、

\operatorname {var} ({\textbf {X}})=\operatorname {cov} ({\textbf {X}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {X}}-\mathrm {E} [{\textbf {X}}])^{\top }\right]

しかし、二つの確率変数ベクトルの間の相互共分散の標準的な記法は次のようになる。: $\operatorname {cov} ({\textbf {X}},{\textbf {Y}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {Y}}-\mathrm {E} [{\textbf {Y}}])^{\top }\right]$

$var$ による記法は、William Fellerの２巻の本An Introduction to Probability Theory and Its Applicationsに見ることができるが、どちらの形式もかなり標準化されていて、その間に曖昧性はない。

性質

分散共分散行列 $\Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]$ について、次のような基本的な性質がある。ただし、 $\mu =\mathrm {E} ({\textbf {X}})$ とし、 $\mathbf {X}$ 、 $\mathbf {X} _{1}$ と $\mathbf {X} _{2}$ は確率変数の $p\times 1$ ベクトル、 $\mathbf {Y}$ は $q\times 1$ ベクトル、 $\mathbf {a}$ は $q\times 1$ ベクトル、 $\mathbf {A}$ と $\mathbf {B}$ は $q\times p$ 行列とする。

$\Sigma =\mathrm {E} (\mathbf {XX^{\top }} )-\mathbf {\mu } \mathbf {\mu ^{\top }}$
$\Sigma$ は、半正定値行列
$\operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \,\operatorname {var} (\mathbf {X} )\,\mathbf {A^{\top }}$
$\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )^{\top }$
$\operatorname {cov} (\mathbf {X} _{1}+\mathbf {X} _{2},\mathbf {Y} )=\operatorname {cov} (\mathbf {X} _{1},\mathbf {Y} )+\operatorname {cov} (\mathbf {X} _{2},\mathbf {Y} )$
もし p = q ならば、 $\operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )$
$\operatorname {cov} (\mathbf {AX} ,\mathbf {B} ^{\top }\mathbf {Y} )=\mathbf {A} \,\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )\,\mathbf {B}$
もし $\mathbf {X}$ と $\mathbf {Y}$ が独立ならば、 $\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=0$

この共分散行列は、シンプルではあるが、非常に多岐にわたる分野でとても有用なツールである。分散共分散行列からは、データの相関を完全に失わせるような写像を作る変換行列を作ることができる。これは、違った見方をすれば、データを簡便に記述するのに最適な基底を取っていることになる。(分散共分散行列のその他の性質やその証明については、en:Rayleigh quotientを参照) これは、統計学では主成分分析 (PCA)と呼ばれており、画像処理の分野では、Karhunen-Loève transform (KL-transform)と呼ばれている。

線形作用素として

線形作用素としてみたとき、分散共分散行列は、ベクトルcを、確率変数ベクトルXのcに関するcによる線形和と確率変数X自身の間で取った共分散ベクトルに写像する: $\mathbf {c} ^{\top }\Sigma =\operatorname {cov} (\mathbf {c} ^{\top }\mathbf {X} ,\mathbf {X} )$ 。二次形式としてみた場合は、Xに関するcとdの二つの線形和の間で取った共分散に写像すると考えればよい: $\mathbf {d} ^{\top }\Sigma \mathbf {c} =\operatorname {cov} (\mathbf {d} ^{\top }\mathbf {X} ,\mathbf {c} ^{\top }\mathbf {X} )$ 。ここで、dをcとすれば、Xに関するcによる線形和の分散となる: $\mathbf {c} ^{\top }\Sigma \mathbf {c}$ 。

どのような行列が分散共分散行列となれるか

すぐ上で使った次の等式と、

\operatorname {var} (\mathbf {a^{\top }} \mathbf {X} )=\mathbf {a^{\top }} \operatorname {var} (\mathbf {X} )\mathbf {a} \,

実数値を取る確率変数の分散は非負であるということから、すぐに半正定値行列だけが分散共分散行列になることができるということがわかる。さらに、任意の半正定値行列は分散共分散行列とみなすことができる。これを示すには、次のようにする。まず、Mをp×pの半正定値対象行列とする。有限次元のスペクトル理論より、Mは半正定値対象な二次の根M^1/2を持つ。 $\mathbf {X}$ を任意のp×1の確率変数の列ベクトルとし、その分散共分散行列がp×pの恒等行列だとする。すると

\operatorname {var} (M^{1/2}\mathbf {X} )=M^{1/2}(\operatorname {var} (\mathbf {X} ))M^{1/2}=M.\,

複素数の確率変数ベクトル

複素数のスカラー値を取る期待値μの確率変数の分散は、便宜的に、以下のように共役複素数を用いて定義される。

\operatorname {var} (z)=\operatorname {E} \left[(z-\mu )(z-\mu )^{*}\right]

ただし、 $z^{*}$ は $z$ の共役複素数。

$Z$ が複素数の確率変数の列ベクトルであるときは、共役転置（転置して共役を取ったもの）を用いることで、次の正方行列を得る。

\operatorname {E} \left[(Z-\mu )(Z-\mu )^{*}\right]

ただし、 $Z^{*}$ は共役転置。スカラーの転置をとってもやはりスカラーなので、スカラーの場合の議論は、この形の特殊な場合とみなせる。

推定

多次元正規分布の分散共分散行列の最尤推定量の導出は、驚くほど巧妙である。 en:estimation of covariance matricesを参照。

確率密度関数

$n$ 個の相関のある確率変数の確率密度関数、特にn次のガウス分布に従う確率変数ベクトルの同時確率については、最尤法を参照。

参考文献

^ Wasserman, Larry (2004). All of Statistics: A Concise Course in Statistical Inference

Weisstein, Eric W. "Covariance Matrix". mathworld.wolfram.com (英語).
N.G. van Kampen, Stochastic processes in physics and chemistry. New York: North-Holland, 1981.

この項目は、数学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（プロジェクト:数学／Portal:数学）。

[1] Wasserman, Larry (2004). All of Statistics: A Concise Course in Statistical Inference

[1]

定義