分散

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

分散(ぶんさん、: variance)は、確率論において、確率変数の2次の中心化モーメントのこと。これは確率変数の分布期待値からどれだけ散らばっているかを示す非負の値である[1]

記述統計学においては標本標本平均からどれだけ散らばっているかを示す指標として標本分散を、推測統計学においては不偏分散を用いる。0 に近いほど散らばりは小さい。

日本工業規格では、「確率変数Xからその母平均を引いた変数の二乗の期待値。σ2=V (X)=E [X−E (X)]2である。」と定義している[2]

英語の「varianceバリアンス」という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散[編集]

2乗可積分確率変数 分散期待値 で表すと

定義される。また式変形をして

とも書ける。また確率変数 X特性関数 とおくと、これは 2 回連続微分可能

と表示することもできる。

チェビシェフの不等式から、任意の に対して、

成り立つが、これは分散が小さくなる程に期待値の近くに変数分布しているを示す大まかな評価である。

性質[編集]

X, X1, …, Xn確率変数a, b, a1, …, an を定数とし、共分散を Cov( , ) で表すと

を満たす。したがって、特に X1, …, Xn独立ならば

が成り立つ。

[編集]

母分散[編集]

個のデータ ,, …,, からなる母集団があって、 をそのデータ相加平均とした時に、相加平均

表され母分散と言う[4]

標本分散[編集]

個のデータ ,, …,, からなる標本があって、 をそのデータ相加平均とした時に、相加平均

で定義される 標本分散 (sample variance) と言う( 標準偏差と呼ばれる)[4]。なお、不偏分散を標本分散と呼ぶ文献もある。

定義より、

となるから、標本分散は、2乗の相加平均相加平均の2乗との差に等しい。従って、手計算等ではこのを用いて分散の計算を容易にすることができる。しかし、コンピュータでこの式を用いて標本分散を計算すると、コンピュータが有限桁しか扱えないことから桁落ちによる誤差が発生する可能性がある。日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している[5]

不偏分散[編集]

標本分散は、一般にその期待値母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して

が成り立つ。そこで推定量として

を用いると、期待値が母分散に等しくなる推定量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散 (unbiased variance) と呼ぶ[4]。定義から明らかに、標本数が大きくなるにつれて標本分散は不偏分散に近づく。

脚注[編集]

参考文献[編集]

関連項目[編集]