分散
出典: フリー百科事典『ウィキペディア(Wikipedia)』
分散(ぶんさん、variance)は、確率論において、確率変数の2次の中心化モーメントの事で、確率変数の分布が期待値からどれだけ散らばっているかを示す値。統計学においては、確率変数の分散だけでなく、標本が標本平均からどれだけ散らばっているかを示す指標として標本分散が用いられる。
目次 |
[編集] 確率変数の分散
とも書ける。
チェビシェフの不等式から、任意の正数
に対して、
が成り立つが、これは分散が小さくなる程に期待値の近くに変数が分布している事を示す大まかな評価である。
となる。
となる。
[編集] 標本分散
個のデータ
,
, …,
,
からなる標本があって、
をそのデータの相加平均とした時に、
の相加平均
で表される
を標本分散 (sample variance) と言う(
は標準偏差と呼ばれる)。なお、後述の不偏分散を標本分散と呼ぶ文献もある。
定義より、
となるから、標本分散は、理論的には2乗の相加平均から相加平均の2乗を引いた値に等しい。従って、手計算等ではこの式に依る分散の計算が簡便で好い。 しかし、有限桁しか扱えないコンピュータでこの式による標本分散を計算すると、桁落ちによる誤差が発生して正しく計算できない恐れがあるので、定義の式で計算する事が望ましい。
[編集] 不偏分散
標本分散は、その期待値が母分散(母集団の分散)よりも若干小さくなる事が知られている。そこで、期待値が母分散に等しくなるように補正を掛けた
が用いられる事も多く、これを母分散の不偏推定量であるとの意味で不偏分散 (unbiased variance) と呼ぶ。定義式より明らかなように、標本数が十分多ければ、不偏分散と標本分散の値は殆ど等しい。
[編集] 不偏分散の期待値
不偏分散
の期待値が母分散
に等しい事を示す。 以下、母平均を
とし、
は
から
までの和を表す物とする。 また、関係式
は繰り返し用いる。
の分散は
で表す


が
で



![V[X]=E[X^{2}]-E[X]^{2},\,](http://upload.wikimedia.org/wikipedia/ja/math/7/7/f/77f85434ac3ccd00abbc274f6267d6f8.png)
![E[x_{i}]=\mu , \, V[x_i]=\sigma^{2}](http://upload.wikimedia.org/wikipedia/ja/math/5/7/e/57e7fdc7d3aa9e15a348d06f3226069d.png)
![\begin{align}
E[u^{2}]&=E\left[ \frac{1}{n-1}\sum_{i} (x_{i}-\bar{x})^{2} \right] \\
&=\frac{1}{n-1}\sum_{i}\left( E[x_{i}^{2}] -2 E[x_{i}\bar{x}] + E[\bar{x}^{2}] \right) \\
&=\frac{1}{n-1}\sum_{i}\left( \left(V \left[x_{i} \right]+E \left[x_{i}\right]^{2} \right) -2 E[\bar{x}^{2}] + E[\bar{x}^{2}] \right) \\
&=\frac{n}{n-1}\left( (\sigma^{2}+\mu^{2})- E[\bar{x}^{2}] \right) \\
&=\frac{n}{n-1}\left( (\sigma^{2}+\mu^{2})-\left(V\left[\frac{1}{n}\sum_{i} x_{i}\right]+\mu^{2} \right )\right) \\
&=\frac{n}{n-1}\left( (\sigma^{2}+\mu^{2})-\left(\frac{1}{n^{2}}\sum_{i} V\left[x_{i}\right]+\mu^{2} \right )\right) \\
&=\frac{n}{n-1}\left( \sigma^{2}-\frac{1}{n^{2}} \cdot n\sigma^{2} \right) \\
&=\sigma^{2}
\end{align}](http://upload.wikimedia.org/wikipedia/ja/math/4/c/d/4cd8b1e45cc929b8b70fe6a3da18eacb.png)