超幾何分布

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

超幾何分布(ちょうきかぶんぷ、英:Hypergeometric distribution)とは、成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。 男女・合否などのように2種の排他的属性に分割できる有限母集団からの非復元抽出に適用される。 超幾何分布と対照的[1]確率分布には二項分布がある。

定義[編集]

超幾何分布とは K 個の成功状態をもつ N 個の要素よりなる母集団から n 個の要素を非復元抽出したときに k 個の成功状態が含まれている確率を与える離散確率分布の一種である。 超幾何分布に従う確率変数 X確率質量関数 fX は次で与えられる。


\operatorname{P}(X=k)
= f_X(k;N,K,n)
= \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}
= \frac{\binom{n}{k}\binom{N-n}{K-k}}{\binom{N}{K}}

確率質量関数は max(0, n + K - N) ≤ k ≤ min(K, n)のとき正となる。

超幾何分布は N が大きくなると、二項分布に近づく。また NK の比が小さく、抽出数 n が大きいとき、ポアソン分布に近づく。

性質[編集]

  • 期待値 E(X) = \frac{nK}{N}
  • 分散 \operatorname{Var}(X) = \frac{(N-n)n(N-K)K}{(N-1)N^2}
  • 最頻値 \left \lfloor \frac{(n+1)(K+1)}{N+2} \right \rfloor
  • 対称性 
\begin{align}
f_X(k;N,K,n)
&= f_X(k;N,n,K) \\
&= f_X(n-k;N,N-K,n) \\
&= f_X(K-k;N,K,N-n)
\end{align}

[編集]

例えば、赤い玉10個と白い玉20個を混ぜた、計30個の中から5個の球を取りだすとき、赤い玉がちょうど1つである確率は

\frac{\binom{10}{1}\binom{30-10}{5-1} }{\binom{30}{5}}=\frac{8075}{23751}\approx 0.34

赤い玉の個数の期待値は

\frac{5\times 10}{30}\approx 1.67

多変量超幾何分布[編集]

定義[編集]

属性が 1 ≤ ic である要素を Ki 個含む N = K1 + … + Kc 個の要素よりなる母集団から n 個の要素を非復元抽出したとき、属性が i である要素を ki 個含んでいる確率を与える分布多変量超幾何分布という。 超幾何分布と多変量超幾何分布の関係は、二項分布多項分布の関係に相当する。

性質[編集]

多変量超幾何分布に従う確率変数を (X1, …, Xc) とする。

  • 確率質量関数 \operatorname{P}(X_1=k_1, \dots, X_c=k_c) = \frac{1}{\binom{N}{n}}\prod_{i=1}^{c} \binom{K_i}{k_i}
  • 期待値 E(X_i) = \frac{n K_i}{N}
  • 分散 \operatorname{Var}(X_i) = \frac{(N-n)n(N-K_i)K_i}{(N-1)N^2}
  • 共分散 \operatorname{Cov}(X_i,X_j) = -\frac{(N-n)nK_iK_j}{(N-1)N^2}

[編集]

壺の中に黒い玉が5個、白い玉が10個、赤い玉が15個あるとする。その中から6個の玉を取り出すとき、各色2個ずつ取り出す確率は次の式で計算できる。

\frac{\binom{5}{2}\binom{10}{2}\binom{15}{2}}{\binom{30}{6}} \approx  0.0796

脚注[編集]

  1. ^ 二項分布は超幾何分布の定義における「非復元抽出」を「復元抽出」に置き換えたものに相当する。

参考文献[編集]

  • 蓑谷千凰彦, 統計分布ハンドブック, 朝倉書店 (2003).
  • B. S. Everitt (清水良一訳), 統計科学辞典, 朝倉書店 (2002).
  • M. Galassi et al. (富永大介訳), GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).

関連項目[編集]

外部リンク[編集]