超幾何分布

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

超幾何分布(ちょうきかぶんぷ、英:Hypergeometric distribution)は、離散確率分布である。N 個の要素を持つ母集団は成功状態とする要素を K 個含む。この母集団から n 個の要素を抽選(非復元抽出)したとき、含まれている成功状態の要素の数 k は超幾何分布に従う。

これとは対照的に二項分布は一定の成功確率の試行を n 回行った時に k 回の成功を得る確率分布を与える。

定義[編集]

超幾何分布は、男女、合否などのように2種の排他的属性に分類できる要素の有限母集団からの抽出に適用される。

確率変数 X が従う超幾何分布は次の確率質量関数で与えられる。


\mathrm{P}(X=k)
= f_X(k;N,K,n)
= \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}
= \frac{\binom{n}{k}\binom{N-n}{K-k}}{\binom{N}{K}}

ここで

  • N は母集団の要素数
  • K は母集団に含まれる成功状態の要素数
  • n は抽出する要素数
  • k は成功数
  • \textstyle \binom{a}{b}は二項係数

確率質量関数は\max(0, n+K-N) \leq k \leq \min(K,n)のとき正となる。

N が大きくなると、二項分布に近づいていく。また N と K の比が小さく、抽出数 n が大きいとき、ポアソン分布に近づく。

性質[編集]

  • 期待値 E(X_i) = \frac{nK}{N}
  • 分散 \text{Var}(X_i) = \frac{(N-n)n(N-K)K}{(N-1)N^2}
  • 最頻値 \left \lfloor \frac{(n+1)(K+1)}{N+2} \right \rfloor
  • 対称性
\begin{align}
f(k;N,K,n)
&= f(k;N,n,K) \\
&= f(n-k;N,N-K,n) \\
&= f(K-k;N,K,N-n)
\end{align}

[編集]

例えば、赤い玉10個と白い玉20個を混ぜた、計30個の中から5個の球を取りだすとき、赤い玉がちょうど1つである確率は

\frac{\binom{10}{1}\binom{30-10}{5-1} }{\binom{30}{5}}=\frac{8075}{23751}\approx 0.34

赤い玉の個数の期待値は

\frac{5\times 10}{30}\approx 1.67

多変量超幾何分布[編集]

属性iである要素がKi個含む母集団からn個を抽選するとき、標本(k1,k2,...,kc)は多変量超幾何分布に従うという。

超幾何分布と多変量超幾何分布の関係は、二項分布多項分布の関係に相当する。 c \in \mathbb{N} = \lbrace 0, 1, \ldots \rbrace
(K_1,\ldots,K_c) \in \mathbb{N}^c
N = \sum_{i=1}^c K_i
n \in \lbrace 0,\ldots,N\rbrace

  • 確率質量関数 \mathrm{P}(X_1=k_1,\dots,X_c=k_c) = \frac{1}{\binom{N}{n}}\prod_{i=1}^{c} \binom{K_i}{k_i}
  • 期待値 E(X_i) = \frac{n K_i}{N}
  • 分散 \text{Var}(X_i) = \frac{(N-n)n(N-K_i)K_i}{(N-1)N^2}
  • 共分散 \text{Cov}(X_i,X_j) = -\frac{(N-n)nK_iK_j}{(N-1)N^2}

[編集]

壺の中に黒い玉が5個、白い玉が10個、赤い玉が15個あるとする。その中から6個の玉を取り出すとき、各色2個ずつ取り出す確率は次の式で計算できる。

\frac{\binom{5}{2}\binom{10}{2}\binom{15}{2}}{\binom{30}{6}} \approx  0.0796

参考文献[編集]

  • 蓑谷千凰彦, 統計分布ハンドブック, 朝倉書店 (2003).
  • B. S. Everitt (清水良一訳), 統計科学辞典, 朝倉書店 (2002).
  • M. Galassi et al. (富永大介訳), GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).

関連項目[編集]

外部リンク[編集]