二項分布
確率質量関数
累積分布関数
色は上図と同じ
母数
n
≥
0
{\displaystyle n\geq 0}
試行回数(整数)
0
≤
p
≤
1
{\displaystyle 0\leq p\leq 1}
成功確率(実数) 台
{
0
,
⋯
,
n
}
{\displaystyle \{0,\cdots ,n\}}
確率質量関数
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle {n \choose k}p^{k}(1-p)^{n-k}}
累積分布関数
I
1
−
p
(
n
−
⌊
k
⌋
,
1
+
⌊
k
⌋
)
{\displaystyle I_{1-p}(n-\lfloor k\rfloor ,1+\lfloor k\rfloor )}
(ただし
I
(
−
)
(
−
,
−
)
{\displaystyle I_{(-)}(-,-)}
は正則化不完全ベータ関数 ) 期待値
n
p
{\displaystyle np}
最頻値
{
{
(
n
+
1
)
p
−
1
,
(
n
+
1
)
p
}
∩
{
0
,
⋯
,
n
}
((n+1)p が 整 数 の 時 )
⌊
(
n
+
1
)
p
⌋
(そ れ 以 外 )
{\displaystyle {\begin{cases}\{(n+1)p-1,(n+1)p\}\\\qquad \cap \{0,\cdots ,n\}&{\text{((n+1)p が 整 数 の 時 )}}\\\lfloor (n+1)p\rfloor &{\text{(そ れ 以 外 )}}\end{cases}}}
分散
n
p
(
1
−
p
)
{\displaystyle np(1-p)}
歪度
1
−
2
p
n
p
(
1
−
p
)
{\displaystyle {\frac {1-2p}{\sqrt {np(1-p)}}}}
尖度
1
−
6
p
(
1
−
p
)
n
p
(
1
−
p
)
{\displaystyle {\frac {1-6p(1-p)}{np(1-p)}}}
モーメント母関数
(
1
−
p
+
p
e
t
)
n
{\displaystyle (1-p+p\,e^{t})^{n}}
特性関数
(
1
−
p
+
p
e
i
t
)
n
{\displaystyle (1-p+p\,e^{it})^{n}}
テンプレートを表示
数学 において、二項分布 (にこうぶんぷ、英 : binomial distribution )は、成功確率 p で成功か失敗のいずれかの結果となる試行 (ベルヌーイ試行 と呼ばれる)を独立 に n 回行ったときの成功回数を確率変数
X
{\displaystyle X}
とする離散確率分布 である。
二項分布に基づく統計的有意性 の検定は、二項検定 と呼ばれている。
二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。
500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことのできる分布が二項分布である。
抽出された集団の中に含まれる罹患者数を確率変数 X で表すとき、X は n = 500, p = 0.05 の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は Pr[X ≥ 30] である。
単純な定義としては、成功確率p の試行を独立 にn 回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。
2つの母数
p
{\displaystyle p}
(
0
≤
p
≤
1
{\displaystyle 0\leq p\leq 1}
となる実数),
n
{\displaystyle n}
(自然数)に対して、0 以上の整数を値としてとる確率変数
X
{\displaystyle X}
を定める。このとき、
X
{\displaystyle X}
は試行の成功回数なので、
(
0
≤
X
≤
n
)
{\displaystyle (0\leq X\leq n)}
である。
そして、
X
=
x
{\displaystyle X=x}
となるような確率についての関数(確率質量関数 )
f
X
(
x
)
{\displaystyle f_{X}(x)}
について、
f
X
(
x
)
=
(
n
x
)
p
x
(
1
−
p
)
n
−
x
{\displaystyle f_{X}(x)={\binom {n}{x}}p^{x}(1-p)^{n-x}}
となることが性質よりわかる。
また、
f
X
(
x
)
{\displaystyle f_{X}(x)}
は確率であるため、
∑
x
=
0
n
f
X
(
x
)
=
1
{\displaystyle \sum _{x=0}^{n}f_{X}(x)=1}
も明らかである。
上記を定義として、
x
{\displaystyle x}
を
k
{\displaystyle k}
に書き換え、
f
X
(
k
)
=
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle f_{X}(k)=P(X=k)={n \choose k}p^{k}(1-p)^{n-k}}
で与えられるとき、
X
{\displaystyle X}
は二項分布
B
(
n
,
p
)
{\displaystyle B(n,p)}
に従う、という。これは
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
と表記される。
ここで、
(
n
k
)
=
n
C
k
=
n
!
k
!
(
n
−
k
)
!
{\displaystyle {n \choose k}={}_{n}\!\mathrm {C} _{k}={\frac {n!}{k!(n-k)!}}}
は n 個から k 個を選ぶ組合せ の数、すなわち二項係数 を表す。二項分布という名前は、この二項係数に由来している。
n = 1 の場合を特に、ベルヌーイ分布 と呼ぶ。
上の定義式は次のように解釈することができる。1回の試行において成功する確率が p であるとき、pk は k 回成功する確率を表し、(1 − p )n −k は n − k 回失敗する確率を表している。ただし、k 回の成功は n 回の試行の中のどこかで発生したものであるから、n Ck 通りの発生順序がある。これら全てを掛けると、n 回の独立な試行を行ったときの成功回数が k となる確率を求めることができる。
性質の導出 [ 編集 ]
期待値・分散 [ 編集 ]
二項分布 B(n , p ) に従う確率変数 X に対し、X の期待値 E [X ] を求めると
E
[
X
]
=
∑
k
=
0
n
k
f
X
(
k
)
=
∑
k
=
0
n
k
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
k
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
k
n
!
(
n
−
k
)
!
k
!
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
n
!
(
n
−
k
)
!
(
k
−
1
)
!
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
n
(
n
−
1
)
!
(
n
−
k
)
!
(
k
−
1
)
!
p
p
k
−
1
(
1
−
p
)
n
−
k
=
n
p
∑
k
=
1
n
(
n
−
1
)
!
(
n
−
k
)
!
(
k
−
1
)
!
p
k
−
1
(
1
−
p
)
n
−
k
{\displaystyle {\begin{alignedat}{7}E[X]&=\sum _{k=0}^{n}kf_{X}(k)\\&=\sum _{k=0}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}k{\frac {n!}{(n-k)!k!}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}{\frac {n!}{(n-k)!(k-1)!}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}n{\frac {(n-1)!}{(n-k)!(k-1)!}}pp^{k-1}(1-p)^{n-k}\\&=np\sum _{k=1}^{n}{\frac {(n-1)!}{(n-k)!(k-1)!}}p^{k-1}(1-p)^{n-k}\\\end{alignedat}}}
ここで、
k
′
=
k
−
1
{\displaystyle k'=k-1}
とおくと、
n
p
∑
k
=
1
n
(
n
−
1
)
!
(
n
−
k
)
!
(
k
−
1
)
!
p
k
−
1
(
1
−
p
)
n
−
k
=
n
p
∑
k
′
=
0
n
−
1
(
n
−
1
)
!
(
(
n
−
1
)
−
k
′
)
!
k
′
!
p
k
′
(
1
−
p
)
(
n
−
1
)
−
k
′
=
n
p
∑
k
′
=
0
n
−
1
(
n
−
1
k
′
)
p
k
′
(
1
−
p
)
(
n
−
1
)
−
k
′
=
n
p
{\displaystyle {\begin{alignedat}{3}np\sum _{k=1}^{n}{\frac {(n-1)!}{(n-k)!(k-1)!}}p^{k-1}(1-p)^{n-k}&=np\sum _{k'=0}^{n-1}{\frac {(n-1)!}{((n-1)-k')!k'!}}p^{k'}(1-p)^{(n-1)-k'}\\&=np\sum _{k'=0}^{n-1}{\binom {n-1}{k'}}p^{k'}(1-p)^{(n-1)-k'}\\&=np\\\end{alignedat}}}
これは全ての順序付けられた試行パターンについての平均値でもある。
続いて、分散 V [X ] は
V
[
X
]
=
E
[
X
2
]
−
(
E
[
X
]
)
2
{\displaystyle V[X]=E[X^{2}]-(E[X])^{2}}
上と同様に
E
[
X
2
]
=
∑
k
=
0
n
k
2
P
(
X
=
k
)
=
∑
k
=
1
n
k
(
k
−
1
)
(
n
k
)
p
k
(
1
−
p
)
n
−
k
+
∑
k
=
1
n
k
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
n
!
(
n
−
k
)
!
(
k
−
2
)
!
p
k
(
1
−
p
)
n
−
k
+
E
[
X
]
=
∑
k
=
2
n
n
!
(
n
−
k
)
!
(
k
−
2
)
!
p
k
(
1
−
p
)
n
−
k
+
n
p
=
n
(
n
−
1
)
p
2
∑
k
=
2
n
(
n
−
2
)
!
(
n
−
k
)
!
(
k
−
2
)
!
p
k
−
2
(
1
−
p
)
n
−
k
+
n
p
=
n
(
n
−
1
)
p
2
∑
k
′
=
0
n
−
2
(
n
−
2
)
!
(
n
−
2
−
k
′
)
!
k
′
!
p
k
′
(
1
−
p
)
n
−
2
−
k
′
+
n
p
=
n
(
n
−
1
)
p
2
+
n
p
{\displaystyle {\begin{alignedat}{10}E[X^{2}]&=\sum _{k=0}^{n}k^{2}P(X=k)\\&=\sum _{k=1}^{n}k(k-1){\binom {n}{k}}p^{k}(1-p)^{n-k}+\sum _{k=1}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}{\frac {n!}{(n-k)!(k-2)!}}p^{k}(1-p)^{n-k}+E[X]\\&=\sum _{k=2}^{n}{\frac {n!}{(n-k)!(k-2)!}}p^{k}(1-p)^{n-k}+np\\&=n(n-1)p^{2}\sum _{k=2}^{n}{\frac {(n-2)!}{(n-k)!(k-2)!}}p^{k-2}(1-p)^{n-k}+np\\&=n(n-1)p^{2}\sum _{k'=0}^{n-2}{\frac {(n-2)!}{(n-2-k')!k'!}}p^{k'}(1-p)^{n-2-k'}+np\\&=n(n-1)p^{2}+np\\\end{alignedat}}}
合計して、
V
[
X
]
=
n
(
n
−
1
)
p
2
+
n
p
−
n
2
p
2
=
n
p
(
1
−
p
)
{\displaystyle {\begin{alignedat}{2}V[X]&=n(n-1)p^{2}+np-n^{2}p^{2}\\&=np(1-p)\\\end{alignedat}}}
となる。
モーメント [ 編集 ]
二項分布 B(n , p ) に従う確率変数 X の r 次モーメント E [X r ] は
E
[
X
r
]
=
∑
j
=
0
r
S
(
r
,
j
)
n
!
(
n
−
j
)
!
p
j
{\displaystyle E[X^{r}]=\sum _{j=0}^{r}S(r,j){\frac {n!}{(n-j)!}}p^{j}}
というやや複雑な表示をもつ。ここで S (r , j ) は第二種スターリング数 。低次から
E
[
X
1
]
=
n
p
,
E
[
X
2
]
=
n
p
+
n
(
n
−
1
)
p
2
,
…
{\displaystyle E[X^{1}]=np,\quad E[X^{2}]=np+n(n-1)p^{2},\dotsc }
となる。一方 X の r 次階乗モーメント (英語版 ) E [(X )r ] は
E
[
(
X
)
r
]
=
(
n
)
r
p
r
=
n
!
(
n
−
r
)
!
p
r
{\displaystyle E[(X)_{r}]=(n)_{r}p^{r}={\frac {n!}{(n-r)!}}p^{r}}
という単純な表示をもつ。ここで (n )r = n !/(n − r )! はポッホハマー記号 。低次から
E
[
(
X
)
1
]
=
n
p
,
E
[
(
X
)
2
]
=
n
(
n
−
1
)
p
2
,
…
{\displaystyle E[(X)_{1}]=np,\quad E[(X)_{2}]=n(n-1)p^{2},\dotsc }
となる。
再生性 [ 編集 ]
二項分布は再生性 を有する。すなわち B(n , p ) に従う確率変数 X と B(m , p ) に従う確率変数 Y が互いに独立であるとき、確率変数の和 X + Y は二項分布 B(n + m , p ) に従う。
二項分布の近似 として、以下の小節に挙げる分布 などが知られている。
近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。
そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。
特に、二項分布の母比率の信頼区間 を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である[5] 。
正規分布 [ 編集 ]
この節の内容の信頼性について検証が求められています 。 確認のための文献や情報源 をご存じの方はご提示ください。出典を明記し 、記事の信頼性を高めるためにご協力をお願いします。
二項分布が正規分布に近づく様子
期待値 np および分散 np (1 − p ) が 5 よりも大きい場合、二項分布 B(n , p ) に対する良好な近似として正規分布 がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、n が十分大きくかつ、期待値 np および 分散 np (1 − p ) も十分大きい場合、期待値 np , 分散 np (1 − p ) の正規分布 N(np , np (1 − p )) で近似することができ、期待値からの差 |k − np | が標準偏差 √ np (1 − p ) と同程度となる k に対して
P
[
X
=
k
]
≃
1
2
π
n
p
(
1
−
p
)
exp
(
−
(
k
−
n
p
)
2
2
n
p
(
1
−
p
)
)
{\displaystyle P[X=k]\simeq {\frac {1}{\sqrt {2\pi np(1-p)}}}\exp {\left(-{\frac {(k-np)^{2}}{2np(1-p)}}\right)}}
が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブル が1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理 またはラプラスの定理と呼ぶことがある[6] 。これは、今日でいうところの中心極限定理 の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。
例えば、多数の住民の中から n 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。n 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 p とほぼ等しい平均 を持ち、標準偏差 σ = √ p (1 − p )/n である正規分布に近似される。未知の変数 p は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 n は多い方が好ましい。
95%信頼区間 ならば、正規分布で近似すると、その範囲は
p
−
1.959964
p
(
1
−
p
)
n
∼
p
+
1.959964
p
(
1
−
p
)
n
{\displaystyle p-1.959964{\sqrt {\frac {p(1-p)}{n}}}\sim p+1.959964{\sqrt {\frac {p(1-p)}{n}}}}
となる。たとえば、p = 50 % の場合、n = 100 なら40%〜60%、n = 1,000 ならば47%〜53%、n = 10,000 ならば49%〜51%となる。n = 10 の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%〜70%となる[7] 。
ポアソン分布 [ 編集 ]
n が大きく p が十分小さい場合、np は適度な大きさとなるため、λ = np を母数とするポアソン分布 が二項分布 B(n , p ) の良好な近似を与える。すなわち、n が十分大きいとき、期待値 λ = np とおくと、
P
[
X
=
k
]
≃
λ
k
e
−
λ
k
!
{\displaystyle P[X=k]\simeq {\frac {\lambda ^{k}e^{-\lambda }}{k!}}}
が成り立つ(詳細はポアソン分布 の項を参照)。この結果は数学者シメオン・ドニ・ポアソン が1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理 と呼ばれる。
参考文献 [ 編集 ]
関連項目 [ 編集 ]
離散単変量で 有限台 離散単変量で 無限台 連続単変量で 有界区間に台を持つ 連続単変量で 半無限区間に台を持つ 連続単変量で 実数直線全体に台を持つ 連続単変量で タイプの変わる台を持つ 混連続-離散単変量 多変量 (結合) 方向 退化 と特異 族 サンプリング法 (英語版 )