分散

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

分散(ぶんさん、variance)は、確率論において、確率変数の2次の中心モーメントで、確率変数の分布期待値からどれだけ散らばっているかを示す統計学においては、確率変数分散だけでなく、標本標本平均からどれだけ散らばっているかを示す指標として標本分散が用いられる。

目次

確率変数の分散 [編集]

2乗可積分確率変数X分散期待値Eで表すにして

V(X)=E((X-E(X))^{2})\,

定義される。同値表現として、

V(X)=E(X^{2})-(E(X))^{2}\,

とも書ける。

チェビシェフの不等式から、任意の\epsilonに対して、

P(|X-E(X)|>\varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}

成り立つが、これは分散が小さくなる程に期待値の近くに変数分布しているを示す大まかな評価である。

性質 [編集]

XY確率変数ab を定数とすると、

V(X) \ge 0
V(aX + b) = a^2 V(X)
  • XY独立な場合
V(X+Y)=V(X)+V(Y)
  • XY独立でない場合(相関がある場合)、共分散Cov( , ) で表す事にして、
V(X+Y) = V(X) + V(Y) + 2 Cov(X, Y)

となる。

母分散 [編集]

m個のデータx_{1},x_{2}, …,x_{m-1},x_{m}からなる母集団があって、\bar{x}をそのデータ相加平均とした時に、(\bar{x}-x_{i})^{2}相加平均

{\sigma}^{2}=\frac{1}{m}\sum_{i=1}^{m}(\bar{x}-x_{i})^2

表され\sigma^{2}母分散と言う。

標本分散 [編集]

n個のデータx_{1},x_{2}, …,x_{n-1},x_{n}からなる標本があって、\bar{x}をそのデータ相加平均とした時に、(\bar{x}-x_{i})^{2}相加平均

s^{2}=\frac{1}{n}\sum_{i=1}^{n}(\bar{x}-x_{i})^2

で定義されるs^{2}標本分散 (sample variance) と言う(s標準偏差と呼ばれる)。なお、後述の不偏分散標本分散と呼ぶ文献もある。

定義より、

s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}

となるから、標本分散は、理論的には2乗の相加平均から相加平均の2乗を引い等しい。従って、手計算等ではこのに依る分散計算が簡便で好い。 しかし、有限しか扱えないコンピュータでこのによる標本分散計算すると、桁落ちによる誤差発生して正しく計算できない恐れがあるので、定義計算するが望ましい。

不偏分散 [編集]

上記の標本分散は、標本抽出の方法が非復元抽出かつ母集団の大きさと標本数が一致する場合を除いて、その期待値母分散母集団分散)よりも若干小さくなるが知られている。そこで、復元抽出で標本を抽出した場合もしくは非復元抽出で標本数が十分に大きい場合(数学的には標本数が無限大)には期待値母分散等しくなるように補正を掛けた

u^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(\bar{x}-x_i)^{2}

が用いられるも多く、これを母分散不偏推定量であるとの意味不偏分散 (unbiased variance) と呼ぶ。定義式より明らかなように、標本数が十分多ければ、不偏分散標本分散の値は殆ど等しい

関連項目 [編集]