標準偏差

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索
共通の平均を持つが、異なる標準偏差を持つ標本のヒストグラム例。赤で示された標本の標準偏差の方が青で示された標本の標準偏差よりも小さい。
平均 0, 標準偏差 σ の正規分布確率密度関数。この分布に従う確率変数が 0 ± σ の間に値をとる確率はおよそ 68% であることが読み取れる。

標準偏差(ひょうじゅんへんさ、: standard deviation, SD)は、日本工業規格では、分散の正の平方根と定義している[1]。データや確率変数の散らばり具合(ばらつき)を表す数値のひとつ。物理学[2]、経済学、社会学などでも使う。例えば、ある試験でクラス全員が同じ点数であった場合(すなわち全員が平均値であった場合)、データにはばらつきがないので、標準偏差は 0 になる。

母集団や確率変数の標準偏差を σ で、標本の標準偏差を s で表すことがある。二乗平均平方根 (RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。

母集団の標準偏差[編集]

n 個のデータ x1, x2, ..., xn からなる母集団を考える。その母集団の平均(または母平均) μ は、次のとおりに定義される:

\mu = \frac{1}{n} \sum_{i=1}^{n}x_i.

このとき、母平均 μ を使って次式で得られる量 σ2分散(または母分散)と定義する。

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2.

この分散の平方根 σ を、母集団の標準偏差と定義する[3]。分散はデータの散らばり具合を表す量であるとはいうものの、元のデータを2乗しているので、元のデータや平均値と単位が異なるため直接比較することができない。そこで平方根をとると元のデータと同じ単位になるので、分散よりも標準偏差の方が散らばり具合を表す量として便利なことがある[4]

標本の標準偏差[編集]

母集団の中から, n 個のデータ x1, x2, ..., xn からなる標本を抽出したとする。このとき、標本平均を次式で定義する:

\bar{x} = \frac{1}{n} \sum_{i=1}^{n}x_i.

この標本平均を使って次式で定義される量を標本の分散と呼ぶ。

s^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2.

標本の分散の平方根 s を標本の標準偏差と呼ぶ[3]

σ2 を母集団の分散、s2 を標本の分散とすると、

E[s^2] = \frac{n-1}{n} \sigma^2

となることが示される。つまり、標本の分散は母集団の分散よりも小さくなる傾向がある[5]。そのため、標本の分散は母集団の分散の不偏推定量ではない。そこで、

u^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2

を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。こうして定義される u2不偏分散という。標本分散と呼ぶこともある。

u2平方根 u標本標準偏差ということもある。

不偏分散の平方根 u は、標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は次式で与えられる[6]

 D = \sqrt{ \frac{n-1}{2}} \frac{ \Gamma \left( \frac{n-1}{2} \right) }{ \Gamma \left( \frac{n}{2} \right)} u.

ここで、Γ はガンマ関数u2 は不偏分散である。

標本サイズが大きくなれば、標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を n-1.5 で割った値の平方根として求められる[7]

 D \approx \sqrt{\frac{1}{n-1.5} \sum_{i=1}^n(x_i - \bar{x})^2}.

名称の混乱[編集]

統計の教科書によっては n − 1 で割ったものが標本分散という名称になっており[8]、用語が混乱して使用されている場合がある。母平均が不明であって、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[9]

英語[編集]

英語では不偏分散による標準偏差のことを「sample standard deviation」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[10]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

  • ウィキペディア英語版の「standard deviation」という記事では、不偏分散による標準偏差(平均からの偏差平方和を n − 1 で割った値の平方根)のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和をnで割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している[出典無効]
  • アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は n − 1 で割る方を意味する。
  • アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ[11]では、「sample standard deviation」を平均からの偏差平方和を n で割った値の平方根だと解説している。

日本語[編集]

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 u2 の平方根を、不偏標準偏差だと教える大学教員も多いが、標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。

  • 兵庫大学の河野稔によるウェブページ[12]では前者である。
  • 神戸大学の中澤港によるウェブページ[13]では前者である。
  • 東北学院大学の根市一志による資料[14]では後者である。

このように、同じ用語でも話者によって定義が異なるので注意が必要である。

確率変数の標準偏差[編集]

離散型確率変数[編集]

X を離散型確率変数とする。X のとりうる値が x1, x2, ..., xnXxi をとる確率を pi で表す。ここで、

\sum_{i=1}^{n}p_i = 1

とする。このとき、

E[X] = \sum_{i=1}^{n} p_i x_i

を確率変数 X期待値という。また、

V[X] = E\Big[\big(X-E[X]\big)^2\Big]=\sum_{i=1}^n p_i \big( x_i - E[X]\big)^2

を確率変数 X分散という。この分散の平方根標準偏差という。

連続型確率変数[編集]

X を連続型確率変数とする。連続関数 f(x) が

f(x) \geq 0, \quad \int_{-\infty}^{\infty} \! f(x) \, dx = 1

を満たし、かつ X の値が区間 [x1, x2] に属する確率が

\int_{x_1}^{x_2} \! f(x) \, dx

のとき、f(x) を X確率密度関数という。このとき、

 E[X] = \int_{-\infty}^{\infty} \! xf(x) \, dx

を確率変数 X期待値という。また、

 V[X] = \int_{-\infty}^{\infty} \! \big(x - E[X]\big)^{2}f(x) \, dx

を確率変数 X分散という。この分散の平方根標準偏差という。

標準偏差の推定[編集]

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本サイズ N の標本標準偏差を s とすると母集団分布が正規分布ならば σ2 は次の自由度 N − 1 の χ2 分布に従う。

\chi^2=Ns^2/\sigma^2.

σ の推定値の95%信頼限界は P = 0.975 の χ2 から P = 0.025 の χ2 までの範囲で、s と σ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。

脚注[編集]

  1. ^ JIS Z 8101-1:1999, 1.13 分散.
  2. ^ 伏見, p. 364, 第 VII 章 確率と統計 63節 算術平均、標準偏差.
  3. ^ a b 栗原 2011, p. 47
  4. ^ 稲垣 1990, p. 21.
  5. ^ 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。
  6. ^ 吉澤 1989, pp. 78–79.
  7. ^ Brugger 1969, p. 32.
  8. ^ 例: (東京大学教養学部統計学教室編 1991)。
  9. ^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。
  10. ^ Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
  11. ^ Estimating Parameters Web Page
  12. ^ 健康統計学-散布度
  13. ^ 高崎経済大学非常勤講義 第4回「記述統計(2):代表値」
  14. ^ 標準偏差の不偏性

参考文献[編集]

関連項目[編集]

外部リンク[編集]