標準偏差

出典: フリー百科事典『ウィキペディア(Wikipedia)』

標準偏差(ひょうじゅんへんさ、Standard Deviation)は、統計値や確率変数の散らばり具合(ばらつき)を表す数値のひとつで σ や s で表す。例えばある試験で、クラス全員が同じ点数であった場合(全員が平均値であった場合)のデータは、ばらつきがないので、標準偏差や分散は0となる。

二乗平均平方根 (RMS) と混同されることもある。両者の違いについては、二乗平均平方根を参照。

目次

[編集] 統計値の標準偏差

例として、n 人のクラスで試験が行われたとする。それぞれの点数を x1, x2, ..., xn とすると相加平均(あるいは算術平均、ふつう単に平均とよばれるもの)は、

\bar{x} = 

\frac{1}{n} \sum_{i=1}^{n}x_i

この時、

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2

分散(正確には標本分散)という。\sum_{i=1}^{n}の右側は、各自の値と平均値との距離の二乗を意味する。この標本分散は、母集団の分散よりも常に小さくなるという性質がある(つまり偏りのない推定量ではない)。

そこで、母集団が十分に大きく標本数が有限の場合、分散 σ2 の推定値として

\sigma'\,^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2

不偏分散という。不偏分散の期待値は母集団の分散に等しい。不偏分散の場合、標本数(例えばデータの人数)nでなくn − 1を用いる。この理由は、標本における散らばり具合(ばらつき)は、母集団のばらつきよりも常に小さくなるという性質があるからである。例えば、標本数が1の場合、ばらつきはないので標本分散が必ず0となるが、母集団のばらつきは普通0ではない。

この分散または不偏分散の正の平方根標準偏差 σである。

※統計の教科書によっては n - 1 で割ったものが標本分散という名称になっており(例:東京大学教養学部統計学教室編『統計学入門』ISBN 4-13-042065-8)、用語が混乱して使用されている場合がある。母集団平均が不明で標本平均を代わりに使用する場合には、期待値が母集団分散となる不偏分散を使用する事が多い(分散または標準偏差の図による解説と具体例は村瀬洋一他『SPSSによる多変量解析』pp.52-53 ISBN 4-27-406626-6 等を参照)。

[編集] 確率変数の標準偏差

[編集] 離散型確率変数

X を離散型確率変数とする。X のとりうる値が x1, x2, ..., xnXxi をとる確率を pi で表す。ここで、

\sum_{i=1}^{n}p_i = 1

とする。この時、

\bar{X} = \sum_{i=1}^{n} p_i x_i

を確率変数 X の平均値という。分散は

V = \sum_{i=1}^n p_i ( x_i - \bar{X})^2

となり、分散の平方根が標準偏差となる。

[編集] 連続型確率変数

X を連続型確率変数とする。連続関数 f(x) が

f(x) \geq 0, \int_{-\infty}^{\infty}f(x)dx = 1

を満たし、かつ X の値が区間 [x1, x2] に属する確率が

\int_{x_1}^{x_2}f(x)dx

の時、平均値は

 \bar{x} = \int_{-\infty}^{\infty}xf(x)dx

分散は

 V = \int_{-\infty}^{\infty}(x - \bar{x})^{2}f(x)dx

となり、分散の平方根が標準偏差となる。

[編集] 関連項目