離散一様分布
| 母数 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): a \in (\dots,-2,-1,0,1,2,\dots)\, |
|---|---|
| 台 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): k \in \{a,a+1,\dots,b-1,b\}\, |
| 確率質量関数 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \begin{matrix} \frac{1}{n} & \mbox{for }a\le k \le b\ \\0 & \mbox{otherwise } \end{matrix} |
| 累積分布関数 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \begin{matrix} 0 & \mbox{for }k<a\\ \frac{\lfloor k \rfloor -a+1}{n} & \mbox{for }a \le k \le b \\1 & \mbox{for }k>b \end{matrix} |
| 期待値 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{a+b}{2}\, |
| 中央値 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{a+b}{2}\, |
| 最頻値 | N/A |
| 分散 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{(b-a+1)^2-1}{12}=\frac{n^2-1}{12}, |
| 歪度 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): 0\, |
| 尖度 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): -\frac{6(n^2+1)}{5(n^2-1)}\, |
| エントロピー |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \ln(n)\, |
| モーメント母関数 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{e^{at}-e^{(b+1)t}} -->{n(1-e^t)}\, |
| 特性関数 |
構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{e^{iat}-e^{i(b+1)t}}{n(1-e^{it})} |
離散一様分布(英: discrete uniform distribution)は、確率論や統計学のおける離散型確率分布の一種であり、有限集合の全ての値について、等しく確からしい場合である。
確率変数が
個の値 構文解析に失敗 (数式画像をファイルシステムに格納できません。): k_1,k_2,\dots,k_n
を同じ確率でとりうるとき、離散一様分布と言える。任意の 構文解析に失敗 (数式画像をファイルシステムに格納できません。): k_i の確率はである。離散一様分布の単純な例としてサイコロがある。その場合の
がとりうる値は 1, 2, 3, 4, 5, 6 で、1回サイコロを振ったとき、それぞれの値が出る確率は 1/6 である。2個のサイコロを振ると、もはや一様分布ではなくなり、とりうる値(2 から 12)によって確率が変わってくる。
離散一様分布の確率変数がとりうる値が実数の場合、累積分布関数を退化分布を使って表すことができる。すなわち、
- 構文解析に失敗 (数式画像をファイルシステムに格納できません。): F(k;a,b,n)={1\over n}\sum_{i=1}^n H(k-k_i)
ここで、ヘヴィサイドの階段関数 構文解析に失敗 (数式画像をファイルシステムに格納できません。): H(x-x_0)
は、を中心とする退化分布の累積分布関数 (CDF) である。この式は、各転移点で一貫した規定が使われると想定している。
目次 |
最大値の推定[編集]
離散一様分布は、k 個の観測された標本に基づき、それらが整数 構文解析に失敗 (数式画像をファイルシステムに格納できません。): 1,2,\dots,N
について一様分布を形成していると推定することで得られる。ここで未知の最大値 N を推定する問題が生じる。このような問題を一般に German tank problem(ドイツ戦車問題)と呼び、第二次世界大戦中のドイツでの戦車生産数の最大値を推定するという問題に由来する。
最大値のUMVU推定によると、次のようになる。
- 構文解析に失敗 (数式画像をファイルシステムに格納できません。): \hat{N}=\frac{k+1}{k} m - 1 = m + \frac{m}{k} - 1
ここで m は標本内の最大値、k は標本数である[1][2]。これは maximum spacing estimation の非常に単純な例と見ることもできる。
この式は直観的に次のように理解できる。
- 「標本の最大値に観測された標本値の平均間隔を加える」
この間隔は標本の最大値の負のバイアスを補填するよう加算され、母集団の最大値の推定とする[notes 1]
この分散は次のようになる[1]。
- 構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{1}{k}\frac{(N-k)(N+1)}{(k+2)} \approx \frac{N^2}{k^2} \text{ for small samples } k \ll N
つまり標準偏差は約 構文解析に失敗 (数式画像をファイルシステムに格納できません。): N/k
で(母集団の)標本間の間隔の平均であり、上の 構文解析に失敗 (数式画像をファイルシステムに格納できません。): \frac{m}{k}
に似ている。
標本の最大値は母集団の最大値の最尤推定量だが、これまで述べたようにバイアスがかかっている。
標本が数として捉えられず、単に識別可能あるいは標識を付与できるなら、母集団の大きさの推定を標識再捕獲法で行うことができる。
関連項目[編集]
脚注[編集]
- ^ 標本の最大値は母集団の最大値を超えることは決してないが、小さくなることはありうる。したがって、バイアスのある推定値である。母集団の最大値は小さく推定される傾向がある。
出典[編集]
- ^ a b Johnson, Roger (1994), “Estimating the Size of a Population”, Teaching Statistics 16 (2 (Summer)), doi:10.1111/j.1467-9639.1994.tb00688.x
- ^ Johnson, Roger (2006), “Estimating the Size of a Population”, Getting the Best from Teaching Statistics
である。離散一様分布の単純な例としてサイコロがある。その場合の
がとりうる値は 1, 2, 3, 4, 5, 6 で、1回サイコロを振ったとき、それぞれの値が出る確率は 1/6 である。2個のサイコロを振ると、もはや
を中心とする退化分布の