正規分布
出典: フリー百科事典『ウィキペディア(Wikipedia)』
| 母数 | μ 位置(実数) σ2 > 0 スケールの2乗 (実数) |
|---|---|
| 台 | ![]() |
| 確率密度関数 | ![]() |
| 分布関数 | ![]() |
| 期待値 | μ |
| 中央値 | μ |
| 最頻値 | μ |
| 分散 | σ2 |
| 歪度 | 0 |
| 尖度 | 0(定義によっては3) |
| エントロピー | ![]() |
| モーメント母関数 | ![]() |
| 特性関数 | ![]() |
正規分布(せいきぶんぷ、英語: normal distribution)は、ド・モアブルが二項分布の近似として発見した確率分布である。 その後、ラプラスやルジャンドル等の誤差や最小二乗法に関する研究を経て、ガウスの誤差論で詳細に論じられた。 ガウス分布 (Gaussian Distribution) とも呼ばれる。
目次 |
概要
(一次元)正規分布は、その平均を μ, 分散を σ2 とするとき、次の形の確率密度函数
を持つ。この正規分布を N(μ, σ2) と表す(N は「正規分布」を表す英語 "Normal Distribution" の頭文字から取られている)。特に μ = 0, σ2 = 1 の時、この分布は(一次元)標準正規分布(または基準正規分布)と呼ばれる。つまり標準正規分布 N(0, 1) は
なる確率密度函数を持つ確率分布として与えられる。
正規分布の確率密度函数をグラフ化した正規分布曲線は左右対称なつりがね状の曲線であり、鐘の形に似ている事からベル・カーブとも呼ばれる。直線 x = μ を軸に左右対称であり、x-軸が漸近線である。なお、曲線は σ の値が大きいほど扁平になる。
なお、中心極限定理により、巨大な n に対する二項分布とも考えることができる。
平均値の周辺の n-次中心化モーメントは、各次数 n に対して
となることが知られている。
また、多変量の統計として共分散まで込めた多次元の正規分布も定義され、平均 μ = (μ1, μ2, ..., μm) の m 次元正規分布の同時密度函数は次の式で与えられる。
ここで、S = (σij) は分散共分散行列と呼ばれる正値対称行列で、冪指数に現れる記号 A[x] は(対称)行列 A とベクトル x に対して二次形式 xTAx を意味するもの(ジーゲル記号)とする。 この多次元分布を(一次元の場合と同様に)N(μ, S) と表す。特に一次元の場合、平均 μ = (μ) と分散共分散行列 S = (σ2) はともに一次元の平均と分散を意味する一つの実数値であり、記号 N(μ, S) = N((μ), (σ2)) は単に N(μ, σ2) と書かれる(先に述べた一次元の場合の記号と同じものと理解してよい)。
自然界の事象のなかには正規分布に従う数量の分布をとるものがあることが知られている[1]。また、そのままでは変数が正規分布に従わない場合もその対数をとると正規分布に従う場合がある。
統計的な意味
確率変数 X が N(μ, σ2) に従う時、平均 μ からのずれが ±1σ 以下の範囲に X が含まれる確率は 68.26%, ±2σ 以下だと 95.44%, さらに ±3σ だと 99.74% となる。
正規分布は、t分布やF分布といった種々の分布の考え方の基礎になっているだけでなく、実際の統計的推測においても、仮説検定、区間推定など、様々な場面で利用される。
なお、実際に検定などにおいて正規分布を用いる時は、確率変数 x を標準化した変数 z = (x − μ)/σ が標準正規分布に従うことを利用する場合がほとんどである。
不連続値をとる確率変数についての検定の場合でも、連続変数と同様の考え方で正規分布を近似的に用いることがある。これは標本の大きさ n が大きく、かつデータの階級幅が狭いほど、近似の精度が高い。
確率密度函数から実際に値を求める場合は少なく、標準正規分布表とよばれる、変量に対応した確率をあらわす一覧表から値を算出する場合がほとんどである。
正規分布の適用
正規分布が統計学上特別な地位を持つのは中心極限定理が存在するためである。中心極限定理は、「独立な同一の分布に従う確率変数の算術平均(確率変数の合計を変数の数で割ったもの)の分布は、もとの確率変数に標準偏差が存在するならば、もとの分布の形状に関係なく、変数の数が多数になったとき、正規分布に収束する。」というものであり、大標本の平均値の統計には、正規分布が仮定されることが非常に多い。
前述のごとく"自然界"の事象(無機的なそれ)の中には、正規分布に従う数量の分布をとるものがあることが知られている。しかしそれは必ずしも"多数派"というわけではない。19世紀ではさながら「正規分布万能主義」といったものがまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。例えば、フラクタルな性質を持つ物は正規分布よりも、パレート分布になることが多い。
人間は自然界の事象とはちがって自分の意思をもっているため、たとえば、子供の成績などは決して正規分布にはならない[1]。
何らかの事象について法則性を捜したり理論を構築しようとしたりする際、その確率分布がまだ分かっていない場合にはそれが正規分布であると仮定して推論することは珍しくないが、誤った結論にたどりついてしまう可能性がある。
本当にその事象が正規分布であるかどうかは実際のデータから確認するしかない。十分というわけではないが、最低限、データの尖度と歪度を調べるべきである。








![E[(X-\mu)^n] = \begin{cases}
0,&\mbox{if }n\mbox{ is odd}\\[12pt]
\displaystyle\prod_{i=1}^{n/2}(2i-1),&\mbox{if }n\mbox{ is even}
\end{cases}](http://upload.wikimedia.org/math/b/9/f/b9f6083e2ae1d6fb7a00d787c3afa196.png)
![\frac{1}{(\sqrt{2\pi})^m \sqrt{|S|}}\exp\!\left(-\frac{1}{2}S^{-1}[\mathbf{x}-\boldsymbol{\mu}]\right)](http://upload.wikimedia.org/math/2/8/3/2834caf3d345212d191d6897768a415e.png)

