二項分布

二項分布
	確率質量関数;
	累積分布関数; ; 色は上図と同じ
母数	試行回数（整数）; 成功確率（実数）
台
確率質量関数
累積分布関数	; （ただしは正則化不完全ベータ関数）
期待値
最頻値
分散
歪度
尖度
モーメント母関数
特性関数
	テンプレートを表示

数学において、二項分布（にこうぶんぷ、英: binomial distribution）は、成功確率 $p$ で成功か失敗のいずれかの結果となる試行（ベルヌーイ試行と呼ばれる）を独立に $n$ 回行ったときの成功回数を確率変数 $X$ とする離散確率分布である。

二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。

例[編集]

二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。

500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布（真の分布）とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。これを定量的に表すことのできる分布が二項分布である。

抽出された集団の中に含まれる罹患者数を確率変数 $X$ で表すとき、 $X$ は $n = 500$ , $p = 0.05$ の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は $Pr[X \geq 30]$ である。

定義[編集]

単純な定義としては、成功確率 $p$ の試行を独立に $n$ 回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。

2つの母数 $p$ ( $0 \leq p \leq 1$ となる実数), $n$ (自然数)に対して、 $0$ 以上の整数を値としてとる確率変数 $X$ を定める。このとき、 $X$ は試行の成功回数なので、 $(0 \leq X \leq n)$ である。

そして、 $X = x$ となるような確率についての関数(確率質量関数) $f X (x)$ について、

f_{X}(x)={\binom {n}{x}}p^{x}(1-p)^{n-x}

となることが性質よりわかる。

また、 $f X (x)$ は確率であるため、

\sum _{x=0}^{n}f_{X}(x)=1

も明らかである。

上記を定義として、 $x$ を $k$ に書き換え、

f_{X}(k)=P(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}

で与えられるとき、 $X$ は二項分布 $B(n, p)$ に従う、という。これは $X \sim B(n, p)$ と表記される^[1]。

ここで、

{\binom {n}{k}}={}_{n}\!\mathrm {C} _{k}={\frac {n!}{k!\,(n-k)!}}

は $n$ 個から $k$ 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。

$n = 1$ の場合を特に、ベルヌーイ分布と呼ぶ。

上の定義式は次のように解釈することができる。1回の試行において成功する確率が $p$ であるとき、 $p k$ は $k$ 回成功する確率を表し、 $(1 - p) n - k$ は $n - k$ 回失敗する確率を表している。ただし、 $k$ 回の成功は $n$ 回の試行の中のどこかで発生したものであるから、 $n C k$ 通りの発生順序がある。これら全てを掛けると、 $n$ 回の独立な試行を行ったときの成功回数が $k$ となる確率を求めることができる。

性質の導出[編集]

期待値・分散[編集]

二項分布 $B(n, p)$ に従う確率変数 $X$ に対し、 $X$ の期待値 $E [X]$ を求めると

{\begin{aligned}E[X]&=\sum _{k=0}^{n}kf_{X}(k)\\&=\sum _{k=0}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}k{\frac {n!}{(n-k)!\,k!}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}{\frac {n!}{(n-k)!\,(k-1)!}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}n{\frac {(n-1)!}{(n-k)!\,(k-1)!}}pp^{k-1}(1-p)^{n-k}\\&=np\sum _{k=1}^{n}{\frac {(n-1)!}{(n-k)!\,(k-1)!}}p^{k-1}(1-p)^{n-k}\\\end{aligned}}

ここで、 $k' = k - 1$ とおくと、

{\begin{aligned}&{\hphantom {=}}np\sum _{k=1}^{n}{\frac {(n-1)!}{(n-k)!\,(k-1)!}}p^{k-1}(1-p)^{n-k}\\&=np\sum _{k'=0}^{n-1}{\frac {(n-1)!}{{\bigl (}(n-1)-k'{\bigr )}!\,k'!}}p^{k'}(1-p)^{(n-1)-k'}\\&=np\sum _{k'=0}^{n-1}{\binom {n-1}{k'}}p^{k'}(1-p)^{(n-1)-k'}\\&=np\\\end{aligned}}

これは全ての順序付けられた試行パターンについての平均値でもある。

続いて、分散 $V [X]$ は

V[X]=E{\bigl [}X^{2}{\bigr ]}-{\bigl (}E[X]{\bigr )}^{2}

上と同様に

{\begin{aligned}E{\bigl [}X^{2}{\bigr ]}&=\sum _{k=0}^{n}k^{2}P(X=k)\\&=\sum _{k=1}^{n}k(k-1){\binom {n}{k}}p^{k}(1-p)^{n-k}+\sum _{k=1}^{n}k{\binom {n}{k}}p^{k}(1-p)^{n-k}\\&=\sum _{k=1}^{n}{\frac {n!}{(n-k)!\,(k-2)!}}p^{k}(1-p)^{n-k}+E[X]\\&=\sum _{k=2}^{n}{\frac {n!}{(n-k)!\,(k-2)!}}p^{k}(1-p)^{n-k}+np\\&=n(n-1)p^{2}\sum _{k=2}^{n}{\frac {(n-2)!}{(n-k)!\,(k-2)!}}p^{k-2}(1-p)^{n-k}+np\\&=n(n-1)p^{2}\sum _{k'=0}^{n-2}{\frac {(n-2)!}{(n-2-k')!\,k'!}}p^{k'}(1-p)^{n-2-k'}+np\\&=n(n-1)p^{2}+np\\\end{aligned}}

合計して、

{\begin{aligned}V[X]&=n(n-1)p^{2}+np-n^{2}p^{2}\\&=np(1-p)\\\end{aligned}}

となる^[2]。

モーメント[編集]

二項分布 $B(n, p)$ に従う確率変数 $X$ の $r$ 次モーメント $E [X r]$ は

E{\bigl [}X^{r}{\bigr ]}=\sum _{j=0}^{r}S(r,j){\frac {n!}{(n-j)!}}p^{j}

というやや複雑な表示をもつ^[3]。ここで $S (r, j)$ は第二種スターリング数。低次から

E{\bigl [}X^{1}{\bigr ]}=np,\quad E[X^{2}]=np+n(n-1)p^{2},\dotsc

となる。一方 $X$ の $r$ 次階乗モーメント（英語版） $E [(X) r]$ は

E{\bigl [}(X)_{r}{\bigr ]}=(n)_{r}p^{r}={\frac {n!}{(n-r)!}}p^{r}

という単純な表示をもつ^[4]。ここで $(n) r = n!/(n - r)!$ はポッホハマー記号。低次から

E{\bigl [}(X)_{1}{\bigr ]}=np,\quad E{\bigl [}(X)_{2}{\bigr ]}=n(n-1)p^{2},\dotsc

となる。

再生性[編集]

二項分布は再生性を有する。すなわち $B(n, p)$ に従う確率変数 $X$ と $B(m, p)$ に従う確率変数 $Y$ が互いに独立であるとき、確率変数の和 $X + Y$ は二項分布 $B(n + m, p)$ に従う。

近似[編集]

二項分布の近似として、以下の小節に挙げる分布などが知られている。近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。特に、二項分布の母比率の信頼区間を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である^[5]。

正規分布[編集]

期待値 $np$ および分散 $np (1 - p)$ が $5$ よりも大きい場合、二項分布 $B(n, p)$ に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、 $n$ が十分大きくかつ、期待値 $np$ および分散 $np (1 - p)$ も十分大きい場合、期待値 $np$ , 分散 $np (1 - p)$ の正規分布 $N(np, np (1 - p))$ で近似することができ、期待値からの差 $| k - np |$ が標準偏差 ${\textstyle {\sqrt {np(1-p)}}}$ と同程度となる $k$ に対して

P[X=k]\simeq {\frac {1}{\sqrt {2\pi np(1-p)}}}\exp {\biggl (}-{\frac {(k-np)^{2}}{2np(1-p)}}{\biggr )}

が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある^[6]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。

例えば、多数の住民の中から $n$ 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。 $n$ 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 $p$ とほぼ等しい平均を持ち、標準偏差 ${\textstyle \sigma ={\sqrt {p(1-p)/n}}}$ である正規分布に近似される。未知の変数 $p$ は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 $n$ は多い方が好ましい。

95%信頼区間ならば、正規分布で近似すると、その範囲は

p-1.959964{\sqrt {\frac {p(1-p)}{n}}}\sim p+1.959964{\sqrt {\frac {p(1-p)}{n}}}

となる。たとえば、 $p = 50%$ の場合、 $n = 100$ なら $40%-60%$ 、 $n = 1000$ ならば $47%-53%$ 、 $n = 10000$ ならば $49%-51%$ となる。 $n = 10$ の場合、正規分布近似ではなく、本来の定義に従って計算すると、 $89%$ 信頼区間で、 $30%-70%$ となる^[7]。

ポアソン分布[編集]

$n$ が大きく $p$ が十分小さい場合、 $np$ は適度な大きさとなるため、 $λ = np$ を母数とするポアソン分布が二項分布 $B(n, p)$ の良好な近似を与える。すなわち、 $n$ が十分大きいとき、期待値 $λ = np$ とおくと、

P[X=k]\simeq {\frac {\lambda ^{k}e^{-\lambda }}{k!}}

が成り立つ（詳細はポアソン分布の項を参照）。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理と呼ばれる。

出典[編集]

[脚注の使い方]

^ 藪 2012, p. 144.
^ 藪 2012, pp. 144–145.
^ Johnson, Kotz & Kemp 2005, p. 110, (3.6).
^ Johnson, Kotz & Kemp 2005, p. 109.
^ "EBCIC: Exact Binomial Confidence Interval Calculator" https://kazkobara.github.io/ebcic/README-jp.html
^ 伏見康治「確率論及統計論」第IV章　独立偶然量の和　27節 Bernoulliの定理, Laplaceの定理 p.452 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
^ prob 3 <= x <= 7 for x binomial with n=10 and p=0.5 — Wolfram Alpha

参考文献[編集]

藪友良『入門実践する統計学』東洋経済新報社、2012年。ISBN 978-4-492-47085-5。
Johnson, N. L.; Kotz, A. W.; Kemp, S. (2005). Univariate Discrete Distributions (Third ed.). Wiley. ISBN 0-471-27246-9. MR2163227. Zbl 1092.62010

表話編歴確率分布
離散単変量で有限台	ベンフォードベルヌーイベータ二項（英語版）二項 categorical（英語版）超幾何ポワソン二項ラーデマッハ（英語版）離散一様ジップジップ–マンデルブロー（英語版）
離散単変量で無限台	ベータ負二項（英語版）ボレル（英語版）コンウェイ–マクスウェル–ポワソン（英語版）離散位相型（英語版）ドラポルト（英語版）拡張負二項（英語版）ガウス–クズミン幾何対数（英語版）負の二項放物フラクタル（英語版）ポワソンスケラム（英語版）ユール–サイモン（英語版）ゼータ（英語版）
連続単変量で有界区間に台を持つ	逆正弦（英語版） ARGUS（英語版）バルディング–ニコルス（英語版）ベイツ（英語版）ベータ beta rectangular（英語版）アーウィン–ホール（英語版）クマラスワミー（英語版）ロジット-正規（英語版）非中心ベータ（英語版） raised cosine（英語版） reciprocal（英語版）三角 U-quadratic（英語版）一様ウィグナー半円
連続単変量で半無限区間に台を持つ	ベニーニ（英語版）ベンクタンダー第一種（英語版）ベンクタンダー第二種（英語版）第2種ベータ Burr（英語版）カイ二乗カイ（英語版） Dagum（英語版）デービス（英語版）指数-対数（英語版）アーラン指数 F folded normal（英語版） Flory–Schulz（英語版）フレシェガンマ gamma/Gompertz（英語版）一般逆ガウス（英語版） Gompertz（英語版） half-logistic（英語版） half-normal（英語版） Hotelling's T-squared（英語版）超アーラン（英語版）超指数（英語版） hypoexponential（英語版）逆カイ二乗（英語版） scaled inverse chi-squared（英語版）逆ガウス逆ガンマコルモゴロフレヴィ対数コーシー対数ラプラス（英語版）対数ロジスティック（英語版）対数正規ロマックス（英語版）行列指数（英語版）マクスウェル–ボルツマンマクスウェル–ユットナー（英語版）ミッタク-レフラー（英語版）仲上（英語版）非心カイ二乗パレート位相型（英語版） poly-Weibull（英語版）レイリー relativistic Breit–Wigner（英語版）ライス（英語版） shifted Gompertz（英語版）切断正規タイプ2ガンベル（英語版）ワイブル離散ワイブル（英語版）ウィルクスのラムダ（英語版）
連続単変量で実数直線全体に台を持つ	コーシー（ローレンツ、ブライト・ウィグナー）指数冪（英語版）フィッシャーの z（英語版）ガウスの q（英語版）一般正規（英語版）一般化双曲型幾何安定（英語版）ガンベルホルツマルク（英語版）双曲線正割ジョンソンの S_U（英語版）ランダウラプラス非対称ラプラス（英語版）ロジスティック非心 t 正規 (ガウス) 正規逆ガウス（英語版）歪正規（英語版）スラッシュ安定スチューデントの t タイプ1ガンベル（英語版）トレイシー–ウィダム（英語版）分散ガンマ（英語版）フォークト
連続単変量でタイプの変わる台を持つ	一般極値一般パレート（英語版）マルチェンコ–パストゥール（英語版） q-指数（英語版） q-ガウス q-ワイブル（英語版） shifted log-logistic（英語版）トゥーキーのラムダ（英語版）
混連続-離散単変量	rectified Gaussian（英語版）
多変量 (結合)	【離散】エウェンズ（英語版）多項ディリクレ多項（英語版）負多項（英語版）【連続】ディリクレ一般ディリクレ（英語版）多変量正規多変量安定（英語版）多変量 t（英語版）正規逆ガンマ（英語版）正規ガンマ（英語版）【行列値】逆行列ガンマ（英語版）逆ウィッシャート（英語版）行列正規（英語版）行列 t（英語版）行列ガンマ（英語版）正規逆ウィッシャート（英語版）正規ウィッシャート（英語版）ウィッシャート
方向	【単変量 (円周) 方向】円周一様（英語版）単変数フォン・ミーゼス wrapped 正規（英語版） wrapped コーシー（英語版） wrapped 指数（英語版） wrapped 非対称ラプラス（英語版） wrapped レヴィ（英語版）【二変量 (球面)】ケント（英語版）【二変量 (トロイダル)】二変数フォン・ミーゼス（英語版）【多変量】フォン・ミーゼス–フィッシャー（英語版）ビンガム（英語版）
退化と特異	【退化】ディラックのデルタ関数【特異】カントール
族	円周（英語版）混合ポワソン（英語版）楕円（英語版）指数自然指数（英語版）位置尺度（英語版）最大エントロピー（英語版）混合（英語版）ピアソン（英語版）トウィーディ（英語版） wrapped（英語版）
サンプリング法（英語版）	逆関数サンプリング法マルコフ連鎖モンテカルロ法（メトロポリス・ヘイスティングス法・ギブスサンプリング・スライスサンプリング）粒子フィルタボックス＝ミュラー法棄却サンプリング（英語版）ジッグラト法（英語版）マルサグリア法（英語版）
一覧（英語版）カテゴリ

二項分布
確率質量関数
累積分布関数色は上図と同じ
母数	$n\geq 0$ 試行回数（整数） $0\leq p\leq 1$ 成功確率（実数）
台	$\{0,\dotsc ,n\}$
確率質量関数	${\binom {n}{k}}p^{k}(1-p)^{n-k}$
累積分布関数	$I_{1-p}{\bigl (}n-\lfloor k\rfloor ,1+\lfloor k\rfloor {\bigr )}$ （ただし $I_{(-)}(-,-)$ は正則化不完全ベータ関数）
期待値	$np$
最頻値	${\begin{cases}\{(n+1)p-1,(n+1)p\}\\\qquad \cap \{0,\dotsc ,n\}&(n+1)p{\text{が整数の時}}\\{\bigl \lfloor }(n+1)p{\bigr \rfloor }&{\text{それ以外}}\end{cases}}$
分散	$np(1-p)$
歪度	${\frac {1-2p}{\sqrt {np(1-p)}}}$
尖度	${\frac {1-6p(1-p)}{np(1-p)}}$
モーメント母関数	$(1-p+p\,e^{t})^{n}$
特性関数	$(1-p+p\,e^{it})^{n}$
テンプレートを表示