正規分布

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
正規分布
確率密度関数
正規分布の確率密度関数:赤は標準正規分布
累積分布関数
正規分布の分布関数:色は確率密度関数と同じ
母数 μ 位置(実数)
σ2 > 0 スケールの2乗(実数)
R = (-∞, ∞)
確率密度関数 \frac1{\sqrt{2\pi\sigma^{2} } }\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right)
累積分布関数 \frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sqrt{2\sigma^{2} } }\right)
期待値 μ
中央値 μ
最頻値 μ
分散 σ2
歪度 0
尖度 0(定義によっては3)
エントロピー \ln\left(\sigma\sqrt{2\,\pi\,e}\right)
モーメント母関数 M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)
特性関数 \phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)
テンプレートを表示

確率論統計学で用いられる正規分布(せいきぶんぷ、英語: normal distribution)またはガウス分布Gaussian distribution)とは、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことにより正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている。たとえば実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。

また、正規分布の密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学物理の理論の体系において、正規分布は基本的な役割を果たしている。

確率変数 x が多変数正規分布に従う場合、\boldsymbol{x} \sim \mathcal{N} (\boldsymbol{\mu}, \Sigma) などと表記される。

概要[編集]

(1次元)正規分布は、その平均を μ, 分散を σ2 とするとき、次の形の確率密度関数

f(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)

を持つ。これはガウス関数の一種である。この正規分布を N(μ, σ2) と表す(N は「正規分布」を表す英語 "Normal Distribution" の頭文字から取られている)。特に μ = 0, σ2 = 1 の時、この分布は(一次元)標準正規分布(または基準正規分布)と呼ばれる。つまり標準正規分布 N(0, 1) は

f(x)=\frac{1}{\sqrt{2\pi}} \exp\!\left(-\frac{x^2}{2} \right)

なる確率密度関数を持つ確率分布として与えられる。 また正規分布は再生性を持つ。 つまり確率変数 X1, …, Xn が独立に正規分布 N1, σ12), …, Nn, σn2) に従うとき、線型結合 ΣaiXi は正規分布 Naiμi, Σai2σi2) に従う。

正規分布の確率密度関数をグラフ化した正規分布曲線は左右対称なつりがね状の曲線であり、の形に似ている事からベル・カーブ(鐘形曲線)とも呼ばれる。直線 x = μ を軸に左右対称であり、x-軸が漸近線である。なお、曲線は σ の値が大きいほど扁平になる。

なお、中心極限定理により、巨大な n に対する二項分布とも考えることができる。

平均値の周辺の n-次中心化モーメントは、各次数 n に対して

E[(X-\mu)^n] = \begin{cases}
0,&\mbox{if }n\mbox{ is odd}\\[12pt]
\biggr ( \displaystyle\prod_{i=1}^{n/2}(2i-1)\biggr ) \sigma^n ,&\mbox{if }n\mbox{ is even} 
\end{cases}

となることが知られている。

また、多変量の統計として共分散まで込めた多次元の正規分布も定義され、平均 μ = (μ1, μ2, ..., μm) の m 次元正規分布の同時密度関数は次の式で与えられる。

\frac{1}{(\sqrt{2\pi})^m \sqrt{|S|}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T}S^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)

ここで、S = (σij) は分散共分散行列と呼ばれる正値対称行列である。なお、A[x] は(対称)行列 A とベクトル x に対して二次形式 xTAx を意味するもの(ジーゲルの記号)とすると (xμ)TS−1(xμ) = S−1[xμ] と書くことも出来る。

この多次元分布を(1次元の場合と同様に)N(μ, S) と表す。特に1次元の場合、平均 μ = (μ) と分散共分散行列 S = (σ2) は共に1次元の平均と分散を意味する1つの実数値であり、記号 N(μ, S) = N((μ), (σ2)) は単に N(μ, σ2) と書かれる(先に述べた1次元の場合の記号と同じものと理解してよい)。

自然界の事象のなかには正規分布に従う数量の分布をとるものがあることが知られている[1]。また、そのままでは変数が正規分布に従わない場合もその対数をとると正規分布に従う場合がある。

歴史[編集]

正規分布はアブラーム・ド・モアブルによって1733年に導入された[2]。この論文はドモアブル自身による1738年出版の The Doctrine of Chances 第二版のなかで、高い次数に関する二項分布の近似の文脈において再掲されている。ドモアブルの結果はピエール=シモン・ラプラスによる『確率論の解析理論』(1812年)において拡張され、いまではドモアブル-ラプラスの定理と呼ばれている。

ラプラスは正規分布を実験の誤差の解析に用いた。その後アドリアン=マリ・ルジャンドルによって1805年最小二乗法が導入され、1809年カール・フリードリヒ・ガウスによる誤差論で詳細に論じられた(ガウスは1794年から最小二乗法を知っていたと主張していた)。

「ベル・カーブ」という名前は、1872年に2変数正規分布に対して「鐘形曲面」という言葉を用いたEsprit Jouffret (en) にさかのぼる。「正規分布」という言葉はチャールズ・サンダース・パースフランシス・ゴルトンヴィルヘルム・レキシスの3人によって1875年頃に独立に導入された。

統計的な意味[編集]

標準正規分布のグラフ

確率変数 XN(μ, σ2) に従う時、平均 μ からのずれが ±1σ 以下の範囲に X が含まれる確率は 68.27%、±2σ 以下だと 95.45%、更に ±3σ だと 99.73% となる。

正規分布は、t分布F分布といった種々の分布の考え方の基礎になっているだけでなく、実際の統計的推測においても、仮説検定区間推定など、様々な場面で利用される。

正規分布は、μとσの2つのパラメータのみで表せるため、μ を 0、そして σ を 1 と変換する事で標準化できる。確率変数 x標準化した変数 z = (x − μ)/σ は標準正規分布に従う。大学レベルの統計入門のクラスでは必ず行われているが、 z 値を求めることで標準正規分布表とよばれる変量に対応した確率をあらわす一覧表を用いて、コンピュータを使うことなく正規分布に従った事象の確率を求める事ができる。

不連続値をとる確率変数についての検定の場合でも、連続変数と同様の考え方で正規分布を近似的に用いることがある。これは標本の大きさ n が大きく、かつデータの階級幅が狭いほど、近似の精度が高い。

正規分布の適用[編集]

正規分布が統計学上特別な地位を持つのは中心極限定理が存在するためである。中心極限定理は、「独立な同一の分布に従う確率変数の算術平均(確率変数の合計を変数の数で割ったもの)の分布は、もとの確率変数に標準偏差が存在するならば、もとの分布の形状に関係なく、変数の数が多数になったとき、正規分布に収束する。」というものである。このため大標本の平均値の統計には、正規分布が仮定されることが非常に多い。

前述のごとく自然界の事象の中には、正規分布に従う数量の分布をとるものがあることが知られている。しかしそれは必ずしも多数派というわけではない。19世紀ではさながら「正規分布万能主義」といったものがまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。例えば、フラクタルな性質を持つ物は正規分布よりも、パレート分布になることが多い。人間は自然界の事象とはちがって自分の意思をもっているため、たとえば、子供の成績などは決して正規分布にはならない[1]。しかし、そもそも理論上、正規分布の x の値は負の無限大から正の無限大まで取れるのに対して、多くの事象は最小値(例えば比例尺度におけるゼロ)と最大値(例えばテストにおける100点満点)が予め定まっている場合があり、そのような事象が完全な正規分布に従うとするには無理がある(その際はcensoringつまり打ち切りを考慮したり、ログノーマル分布を用いたりするとより正確な確率を求めることが出来る場合がある)。また、ゼロ及び自然数しかとらない離散確率分布、例えばポアソン分布二項分布連続確率分布である正規分布で近似することも一般的に行われている。

何らかの事象について法則性を捜したり理論を構築しようとしたりする際、その確率分布がまだ分かっていない場合にはそれが正規分布であると仮定して推論することは珍しくないが、誤った結論にたどりついてしまう可能性がある。標本データが正規分布に近似しているかどうを判断するためには、尖度歪度を調べる、ヒストグラムを見る、正規QQプロットをチェックする、或いはシャーピロ・ウィルク検定やコルモゴロフ-スミルノフ検定(正規分布)を利用する方法などが一般的に行われている。

脚注[編集]

  1. ^ a b 遠山啓 『数学入門(下)』 岩波書店岩波新書〉(原著1960年10月20日)、初版、p. 87。2009年3月5日閲覧。
  2. ^ Abraham de Moivre, "Approximatio ad Summam Terminorum Binomii (a + b)n in Seriem expansi" (1733年11月12日に私的な回覧用にロンドンで印刷された。)このパンフレットは以下に挙げる各書物に再掲されている: (1) Richard C. Archibald (1926) “A rare pamphlet of Moivre and some of his discoveries,” Isis, vol. 8, pages 671-683; (2) Helen M. Walker, “De Moivre on the law of normal probability” in David Eugene Smith, A Source Book in Mathematics [New York, New York: McGraw-Hill, 1929; reprinted: New York, New York: Dover, 1959], vol. 2, pages 566-575.; (3) Abraham De Moivre, The Doctrine of Chances (2nd ed.) [London: H. Woodfall, 1738; reprinted: London: Cass, 1967], pages 235-243; (3rd ed.) [London: A Millar, 1756; reprinted: New York, New York: Chelsea, 1967], pages 243-254; (4) Florence N. David, Games, Gods and Gambling: A History of Probability and Statistical Ideas [London: Griffin, 1962], Appendix 5, pages 254-267.

関連項目[編集]

外部リンク[編集]