標準偏差

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内, 検索

標準偏差(ひょうじゅんへんさ、Standard Deviation)は、統計値や確率変数の散らばり具合(ばらつき)を表す数値のひとつで σ や s で表す。例えばある試験で、クラス全員が同じ点数であった場合(全員が平均値であった場合)のデータは、ばらつきがないので、標準偏差や分散は0となる。

二乗平均平方根 (RMS) と混同されることもある。両者の違いについては、二乗平均平方根を参照。

目次

[編集] 統計値の標準偏差

例として、n 人のクラスで試験が行われたとする。それぞれの点数を x1, x2, ..., xn とすると相加平均(あるいは算術平均、ふつう単に平均とよばれるもの)は、つぎのように定義される。

\bar{x} = \frac{1}{n} \sum_{i=1}^{n}x_i

この時、平均を使って以下のようにして得られる数値、

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2

分散(または標本分散)という。\sum_{i=1}^{n}の右側は、各自の値と平均値との距離の二乗を意味する。

σ 2pを母集団の分散として、標本分散σ 2sの期待値 E [σ 2s ] を計算すると、

E[\sigma^2_s] = \frac{n-1}{n} \sigma^2_p

となることから、標本分散は母集団の分散よりも概ね小さくなるという性質があり[1]、標本分散は母集団の分散の不偏推定量ではないことがわかる。一方、

\sigma^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2

を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。これを不偏分散という。

この分散または不偏分散の正の平方根標準偏差 σである。分散はデータの散らばり具合を表す量であるとは言うものの、元のデータを2乗しているので、元のデータあるいは平均値と直接比較することができない。そこで平方根をとって単位をそろえることが、標準偏差を考える意味である。

不偏分散の平方根は標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は以下のように与えられる[2]

 D = \sqrt{ \frac{n-1}{2}} \frac{ \Gamma \left( \frac{n-1}{2} \right) }{ \Gamma \left( \frac{n}{2} \right)} U

ただし、U2 は不偏分散である。

※統計の教科書によっては n − 1 で割ったものが標本分散という名称になっており(例:東京大学教養学部統計学教室編『統計学入門』ISBN 4-13-042065-8)、用語が混乱して使用されている場合がある。母集団平均が不明で標本平均を代わりに使用する場合には、期待値が母集団分散となる不偏分散を使用する事が多い(分散または標準偏差の図による解説と具体例は村瀬洋一他『SPSSによる多変量解析』pp.52-53 ISBN 4-27-406626-6 等を参照)。なお、Wikipedia英語版では不偏分散による標準偏差のことをSample Standard Deviation(標本標準偏差)と表記している。アメリカのFundamentals of Engineering(FE)の試験問題ではSample Standard Deviationを求めよと書かれていたらn − 1で割る方が答えなので注意が必要。

[編集] 確率変数の標準偏差

[編集] 離散型確率変数

X を離散型確率変数とする。X のとりうる値が x1, x2, ..., xnXxi をとる確率を pi で表す。ここで、

\sum_{i=1}^{n}p_i = 1

とする。この時、

\bar{X} = \sum_{i=1}^{n} p_i x_i

を確率変数 X の平均値という。分散は

V = \sum_{i=1}^n p_i ( x_i - \bar{X})^2

となり、分散の平方根が標準偏差となる。

[編集] 連続型確率変数

X を連続型確率変数とする。連続関数 f(x) が

f(x) \geq 0, \int_{-\infty}^{\infty}f(x)dx = 1

を満たし、かつ X の値が区間 [x1, x2] に属する確率が

\int_{x_1}^{x_2}f(x)dx

の時、平均値は

 \bar{x} = \int_{-\infty}^{\infty}xf(x)dx

分散は

 V = \int_{-\infty}^{\infty}(x - \bar{x})^{2}f(x)dx

となり、分散の平方根が標準偏差となる。

[編集] 標準偏差の推定

母標準偏差が未知のときは標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本数 N の標本標準偏差を s とすると母集団分布が正規分布ならば σ2 は次の自由度 N - 1 の χ2 分布に従う。

χ2 = Ns2 / σ2

σ の推定値の95%信頼限界は P = 0.975 の χ2 から P = 0.025 のχ2までの範囲で、s と σ の比は N = 5 では 0.66 から 3.21、N = 20 では 0.789 から 1.49 となり、標本が少数の場合はかなり範囲が広いことに留意すべきである。

[編集] 脚注

  1. ^ 例えば、標本数が1の場合、ばらつきはないので標本分散が必ず0となるが、母集団のばらつきは普通0ではない。
  2. ^ 吉澤康和『新しい誤差論 - 実験データ解析法』共立出版株式会社、1989年、pp.78-79

[編集] 関連項目

個人用ツール
名前空間
変種
操作
案内
ヘルプ
ツールボックス
他の言語