コンテンツにスキップ

# 超幾何分布

母数 確率質量関数 累積分布関数 {\displaystyle {\begin{aligned}N&\in \left\{0,1,2,\cdots \right\}\\K&\in \left\{0,1,2,\cdots ,N\right\}\\n&\in \left\{0,1,2,\cdots ,N\right\}\end{aligned}}} ${\displaystyle \left\{\max\{0,\,n+K-N\},\,\cdots ,\,\min\{n,\,K\}\right\}}$ ${\displaystyle {\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}}}$ ${\displaystyle 1-{\frac {{\binom {n}{k+1}}{\binom {N-n}{K-k-1}}}{\binom {N}{K}}}\,{}_{3}\!F_{2}\!\!\left[{\begin{array}{c}1,\ k+1-K,\ k+1-n\\k+2,\ N+k+2-K-n\end{array}};1\right],}$ ${\displaystyle {}_{p}\!F_{q}}$ は一般超幾何関数 ${\displaystyle n{K \over N}}$ ${\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }$ ${\displaystyle n{\frac {K}{N}}{\frac {N-K}{N}}{\frac {N-n}{N-1}}}$ ${\displaystyle {\frac {(N-2K)(N-1)^{\frac {1}{2}}(N-2n)}{[nK(N-K)(N-n)]^{\frac {1}{2}}(N-2)}}}$ ${\displaystyle \left.{\frac {1}{nK(N-K)(N-n)(N-2)(N-3)}}\cdot \right.}$ ${\displaystyle {\Big [}(N-1)N^{2}{\Big (}N(N+1)-6K(N-K)-6n(N-n){\Big )}+}$ ${\displaystyle 6nK(N-K)(N-n)(5N-6){\Big ]}}$ ${\displaystyle {\frac {{\binom {N-K}{n}}\scriptstyle {{}_{2}\!F_{1}(-n,-K;N-K-n+1;e^{t})}}{\binom {N}{n}}}}$ ${\displaystyle {\frac {{\binom {N-K}{n}}\scriptstyle {{}_{2}\!F_{1}(-n,-K;N-K-n+1;e^{it})}}{\binom {N}{n}}}}$ テンプレートを表示

## 定義

${\displaystyle \operatorname {P} (X=k)=f_{X}(k;N,K,n)={\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}}={\frac {{\binom {n}{k}}{\binom {N-n}{K-k}}}{\binom {N}{K}}}}$

## 性質

• 期待値 ${\displaystyle E(X)=n\cdot {\frac {K}{N}}}$
• 分散 ${\displaystyle \operatorname {Var} (X)=n\cdot {\frac {K}{N}}\cdot {\frac {N-K}{N}}\cdot {\frac {N-n}{N-1}}}$
• 最頻値 ${\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }$
• 対称性 {\displaystyle {\begin{aligned}f_{X}(k;N,K,n)&=f_{X}(k;N,n,K)\\&=f_{X}(n-k;N,N-K,n)\\&=f_{X}(K-k;N,K,N-n)\end{aligned}}}

## 例

${\displaystyle {\frac {{\binom {10}{1}}{\binom {30-10}{5-1}}}{\binom {30}{5}}}={\frac {8075}{23751}}\approx 0.34}$

${\displaystyle {\frac {5\times 10}{30}}\approx 1.67}$

### フィッシャーの正確確率検定への応用

この問題において、「成功」を「緑玉」に、「失敗」を「赤玉」例えることで、超幾何分布の問題に帰着でき、k回成功する確率(即ち、k回緑玉が取り出される確率)は、以下のようになる。

${\displaystyle P(X=k)=f(k;N,K,n)={{{K \choose k}{{N-K} \choose {n-k}}} \over {N \choose n}}.}$

この確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには（普通の検定と同じように）実際の観測データよりも極端な場合も含めて考えなければならない。また、成功/失敗を検討してはいるが、ビー玉を取り出す毎に壺の中に残されたビー玉の個数は次々に変化し、各試行での成功確率は同じではないため、この問題は二項分布では正確にモデル化できない。

Column Total K N − K N

このとき、例えば, k=4であれば、四分割表とP(X=4)は以下のようになる。

${\displaystyle P(X=4)=f(4;50,5,10)={{{5 \choose 4}{{45} \choose {6}}} \over {50 \choose 10}}={5\cdot 8145060 \over 10272278170}=0.003964583\dots .}$

Column Total 5 45 50

さらに、k=5の場合を考える。P(X=5)は以下のようになる。

${\displaystyle P(X=5)=f(5;50,5,10)={{{5 \choose 5}{{45} \choose {5}}} \over {50 \choose 10}}={1\cdot 1221759 \over 10272278170}=0.0001189375\dots ,}$

これらを比較すると、緑玉が5個の取り出される確率は、4個取り出される確率より約35倍低くなることが判る。

## 多変量超幾何分布

### 性質

• 確率質量関数 ${\displaystyle \operatorname {P} (X_{1}=k_{1},\dots ,X_{c}=k_{c})={\frac {1}{\binom {N}{n}}}\prod _{i=1}^{c}{\binom {K_{i}}{k_{i}}}}$
• 期待値 ${\displaystyle E[X_{i}]={\frac {nK_{i}}{N}}}$
• 分散 ${\displaystyle \operatorname {Var} [X_{i}]={\frac {(N-n)n(N-K_{i})K_{i}}{(N-1)N^{2}}}}$
• 共分散 ${\displaystyle \operatorname {Cov} [X_{i},X_{j}]=-{\frac {(N-n)nK_{i}K_{j}}{(N-1)N^{2}}}}$

### 例

${\displaystyle {\frac {{\binom {5}{2}}{\binom {10}{2}}{\binom {15}{2}}}{\binom {30}{6}}}\approx 0.0796}$

## 脚注

### 注釈

1. ^ 二項分布は超幾何分布の定義における「非復元抽出」を「復元抽出」に置き換えたものに相当する。

## 参考文献

• 蓑谷千凰彦、統計分布ハンドブック、朝倉書店 (2003).
• B. S. Everitt（清水良一訳）、統計科学辞典, 朝倉書店 (2002).
• M. Galassi et al.（富永大介訳）、GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).