標準偏差

標準偏差（ひょうじゅんへんさ、英: standard deviation、SD）とは、分散の平方根のこと。データや確率変数の散らばり具合（ばらつき）を表す数値のひとつ。母集団や確率変数の標準偏差は σ で、標本の標準偏差は s で表されることが多い。例えば、ある試験でクラス全員が同じ点数であった場合（すなわち全員が平均値であった場合）、データにはばらつきがないので、標準偏差は 0 になる。

二乗平均平方根 (RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。

母集団の標準偏差

n 個のデータ x₁, x₂, ..., x_n からなる母集団を考える。その母集団の平均（または母平均）は、次のとおりに定義される:

$\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ .

このとき、母平均 μ を使って次式で得られる量を分散（または母分散）と定義する。

$\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}$

この分散の平方根 σ を、母集団の標準偏差と定義する^[1]。分散はデータの散らばり具合を表す量であるとはいうものの、元のデータを2乗しているので、元のデータや平均値と単位が異なるため直接比較することができない。そこで平方根をとると元のデータと同じ単位になるので、分散よりも標準偏差の方が散らばり具合を表す量として便利なことがある^[2]。

標本の標準偏差

母集団の中から, n 個のデータ x₁, x₂, ..., x_n からなる標本を抽出したとする。このとき、標本平均を次式で定義する:

${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$

この標本平均を使って次式で定義される量を標本の分散と呼ぶ。

$s^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}$

標本の分散の平方根 s を標本の標準偏差と呼ぶ^[1]。

σ² を母集団の分散、s² を標本の分散とすると、

$E[s^{2}]={\frac {n-1}{n}}\sigma ^{2}$

となることが示される。つまり、標本の分散は母集団の分散よりも小さくなる傾向がある^[3]。そのため、標本の分散は母集団の分散の不偏推定量ではない。そこで、

$u^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}$

を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。こうして定義される u² を不偏分散という。標本分散と呼ぶこともある。

u² の平方根 u を標本標準偏差ということもある。

不偏分散の平方根 u は、標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は次式で与えられる^[4]。

$D={\sqrt {\frac {n-1}{2}}}{\frac {\Gamma \left({\frac {n-1}{2}}\right)}{\Gamma \left({\frac {n}{2}}\right)}}u$

ここで、Γ はガンマ関数、u² は不偏分散である。

標本サイズが大きくなれば、標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を $n-1.5$ で割った値の平方根として求められる^[5]。

$D\approx {\sqrt {{\frac {1}{n-1.5}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$

名称の混乱

統計の教科書によっては n-1 で割ったものが標本分散という名称になっており^[6]、用語が混乱して使用されている場合がある。母平均が不明であって、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い^[7]。

英語

英語では不偏分散による標準偏差のことを「sample standard deviation（サンプル・スタンダード・デビエーション）」（標本標準偏差）と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された^[8]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

ウィキペディア英語版の「standard deviation」という記事では、不偏分散による標準偏差（平均からの偏差平方和をn-1で割った値の平方根）のことを「corrected sample standard deviation（コレクティド・サンプル・スタンダード・デビエーション）」と表記し、平均からの偏差平方和をnで割った値の平方根を「uncorrected sample standard deviation（アンコレクティド・サンプル・スタンダード・デビエーション）」や「the standard deviation of the sample（ジ・スタンダード・デビエーション・オブ・サンプルズ）」と表記している。
アメリカの Fundamentals of Engineering（ファンダメンタルズ・オブ・エンジニアリング） (FE) の試験問題での「sample standard deviation」は n-1 で割る方を意味する。
アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ^[9]では、「sample standard deviation」を平均からの偏差平方和をnで割った値の平方根だと解説している。

日本語

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 u² の平方根を、不偏標準偏差だと教える大学教員も多いが、標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。

兵庫大学の河野稔によるウェブページ^[10]では前者である。
神戸大学の中澤港によるウェブページ^[11]では前者である。
東北学院大学の根市一志による資料^[12]では後者である。

このように、同じ用語でも話者によって定義が異なるので注意が必要である。^{[出典無効]}

確率変数の標準偏差

離散型確率変数

X を離散型確率変数とする。X のとりうる値が x₁, x₂, ..., x_n で X が x_i をとる確率を p_i で表す。ここで、

$\sum _{i=1}^{n}p_{i}=1$

とする。このとき、

$E[X]=\sum _{i=1}^{n}p_{i}x_{i}$

を確率変数 X の期待値という。また、

$V[X]=E{\Big [}{\big (}X-E[X]{\big )}^{2}{\Big ]}=\sum _{i=1}^{n}p_{i}{\big (}x_{i}-E[X]{\big )}^{2}$

を確率変数 X の分散という。この分散の平方根を標準偏差という。

連続型確率変数

X を連続型確率変数とする。連続関数 f(x) が

$f(x)\geq 0,\quad \int _{-\infty }^{\infty }\!f(x)\,dx=1$

を満たし、かつ X の値が区間 [x₁, x₂] に属する確率が

$\int _{x_{1}}^{x_{2}}\!f(x)\,dx$

のとき、f(x) を X の確率密度関数という。このとき、

$E[X]=\int _{-\infty }^{\infty }\!xf(x)\,dx$

を確率変数 X の期待値という。また、

$V[X]=\int _{-\infty }^{\infty }\!{\big (}x-E[X]{\big )}^{2}f(x)\,dx$

を確率変数 X の分散という。この分散の平方根を標準偏差という。

標準偏差の推定

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本サイズ N の標本標準偏差を s とすると母集団分布が正規分布ならば σ² は次の自由度 N - 1 の χ² 分布に従う。

\chi ^{2}=Ns^{2}/\sigma ^{2}

σ の推定値の95%信頼限界は P = 0.975 の χ² から P = 0.025 の χ² までの範囲で、s と σ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。

脚注

^ ^a ^b 栗原 2011, p. 47
^ 稲垣 1990, p. 21.
^ 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。
^ 吉澤 1989, pp. 78–79.
^ Brugger 1969, p. 32.
^ 例: (東京大学教養学部統計学教室編 1991)。
^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。
^ “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
^ 「Estimating Parameters Web Page（エスティメイティング・パラメターズ・ウェブ・ページ）」
^ 「健康統計学-散布度」
^ 「高崎経済大学非常勤講義第4回「記述統計(2):代表値」」
^ 「標準偏差の不偏性」

参考文献

Brugger, Richard M (1969-10). “A Note on Unbiased Estimation of the Standard Deviation”. The American statistician (American Statistical Association) 23 (4): 32. ISSN 0003-1305.
吉澤, 康和『新しい誤差論 - 実験データ解析法』共立出版、1989年。ISBN 4320014243。
稲垣, 宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
『統計学入門』東京大学出版会、1991年。ISBN 4-13-042065-8。
村瀬, 洋一、高田, 洋、廣瀬, 毅士『SPSSによる多変量解析』オーム社、2007年。ISBN 4-27-406626-6。
栗原, 伸一『入門統計学検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。

外部リンク

日本大百科全書(ニッポニカ)『標準偏差』 - コトバンク

[K-1] 栗原 2011, p. 47

[FOOTNOTE稲垣199021-2] 稲垣 1990, p. 21.

[3] 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。

[FOOTNOTE吉澤198978–79-4] 吉澤 1989, pp. 78–79.

[FOOTNOTEBrugger196932-5] Brugger 1969, p. 32.

[6] 例: (東京大学教養学部統計学教室編 1991)。

[7] 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。

[8] “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。

[9] 「Estimating Parameters Web Page（エスティメイティング・パラメターズ・ウェブ・ページ）」

[10] 「健康統計学-散布度」

[11] 「高崎経済大学非常勤講義第4回「記述統計(2):代表値」」

[12] 「標準偏差の不偏性」

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]