出典: フリー百科事典『ウィキペディア(Wikipedia)』
離散一様分布
確率質量関数
n = 5 ただし n = b − a + 1
累積分布関数
母数
a
∈
(
…
,
−
2
,
−
1
,
0
,
1
,
2
,
…
)
{\displaystyle a\in (\dots ,-2,-1,0,1,2,\dots )\,}
b
∈
(
…
,
−
2
,
−
1
,
0
,
1
,
2
,
…
)
{\displaystyle b\in (\dots ,-2,-1,0,1,2,\dots )\,}
n
=
b
−
a
+
1
{\displaystyle n=b-a+1\,}
台
k
∈
{
a
,
a
+
1
,
…
,
b
−
1
,
b
}
{\displaystyle k\in \{a,a+1,\dots ,b-1,b\}\,}
確率質量関数
1
n
for
a
≤
k
≤
b
0
otherwise
{\displaystyle {\begin{matrix}{\frac {1}{n}}&{\mbox{for }}a\leq k\leq b\ \\0&{\mbox{otherwise }}\end{matrix}}}
累積分布関数
0
for
k
<
a
⌊
k
⌋
−
a
+
1
n
for
a
≤
k
≤
b
1
for
k
>
b
{\displaystyle {\begin{matrix}0&{\mbox{for }}k<a\\{\frac {\lfloor k\rfloor -a+1}{n}}&{\mbox{for }}a\leq k\leq b\\1&{\mbox{for }}k>b\end{matrix}}}
期待値
a
+
b
2
{\displaystyle {\frac {a+b}{2}}\,}
中央値
a
+
b
2
{\displaystyle {\frac {a+b}{2}}\,}
最頻値
N/A 分散
(
b
−
a
+
1
)
2
−
1
12
=
n
2
−
1
12
,
{\displaystyle {\frac {(b-a+1)^{2}-1}{12}}={\frac {n^{2}-1}{12}},}
歪度
0
{\displaystyle 0\,}
尖度
−
6
(
n
2
+
1
)
5
(
n
2
−
1
)
{\displaystyle -{\frac {6(n^{2}+1)}{5(n^{2}-1)}}\,}
エントロピー
ln
(
n
)
{\displaystyle \ln(n)\,}
モーメント母関数
e
a
t
−
e
(
b
+
1
)
t
−
−
>
n
(
1
−
e
t
)
{\displaystyle {\frac {e^{at}-e^{(b+1)t}}{-}}->{n(1-e^{t})}\,}
特性関数
e
i
a
t
−
e
i
(
b
+
1
)
t
n
(
1
−
e
i
t
)
{\displaystyle {\frac {e^{iat}-e^{i(b+1)t}}{n(1-e^{it})}}}
テンプレートを表示
離散一様分布 (英 : discrete uniform distribution)は、確率論 や統計学 のおける離散型確率分布 の一種であり、有限集合の全ての値について、等しく確からしい場合である。
確率変数が
n
{\displaystyle n}
個の値
k
1
,
k
2
,
…
,
k
n
{\displaystyle k_{1},k_{2},\dots ,k_{n}}
を同じ確率でとりうるとき、離散一様分布と言える。任意の
k
i
{\displaystyle k_{i}}
の確率は
1
/
n
{\displaystyle 1/n}
である。離散一様分布の単純な例としてサイコロがある。その場合の
k
{\displaystyle k}
がとりうる値は 1, 2, 3, 4, 5, 6 で、1回サイコロを振ったとき、それぞれの値が出る確率は 1/6 である。2個のサイコロを振ると、もはや一様分布 ではなくなり、とりうる値(2 から 12)によって確率が変わってくる。
離散一様分布の確率変数がとりうる値が実数 の場合、累積分布関数を退化分布 を使って表すことができる。すなわち、
F
(
k
;
a
,
b
,
n
)
=
1
n
∑
i
=
1
n
H
(
k
−
k
i
)
{\displaystyle F(k;a,b,n)={1 \over n}\sum _{i=1}^{n}H(k-k_{i})}
ここで、ヘヴィサイドの階段関数
H
(
x
−
x
0
)
{\displaystyle H(x-x_{0})}
は、
x
0
{\displaystyle x_{0}}
を中心とする退化分布の累積分布関数 (CDF) である。この式は、各転移点で一貫した規定が使われると想定している。
最大値の推定
離散一様分布は、k 個の観測された標本に基づき、それらが整数
1
,
2
,
…
,
N
{\displaystyle 1,2,\dots ,N}
について一様分布を形成していると推定することで得られる。ここで未知の最大値 N を推定する問題が生じる。このような問題を一般に German tank problem (ドイツ戦車問題)と呼び、第二次世界大戦 中のドイツでの戦車生産数の最大値を推定するという問題に由来する。
最大値のUMVU 推定によると、次のようになる。
N
^
=
k
+
1
k
m
−
1
=
m
+
m
k
−
1
{\displaystyle {\hat {N}}={\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1}
ここで m は標本内の最大値、k は標本数である[1] [2] 。これは maximum spacing estimation の非常に単純な例と見ることもできる。
この式は直観的に次のように理解できる。
「標本の最大値に観測された標本値の平均間隔を加える」
この間隔は標本の最大値の負のバイアスを補填するよう加算され、母集団の最大値の推定とする[notes 1]
この分散は次のようになる[1] 。
1
k
(
N
−
k
)
(
N
+
1
)
(
k
+
2
)
≈
N
2
k
2
for small samples
k
≪
N
{\displaystyle {\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N}
つまり標準偏差は約
N
/
k
{\displaystyle N/k}
で(母集団の)標本間の間隔の平均であり、上の
m
k
{\displaystyle {\frac {m}{k}}}
に似ている。
標本の最大値は母集団の最大値の最尤 推定量だが、これまで述べたようにバイアスがかかっている。
標本が数として捉えられず、単に識別可能あるいは標識を付与できるなら、母集団の大きさの推定を標識再捕獲法 で行うことができる。
関連項目
脚注
^ 標本の最大値は母集団の最大値を超えることは決してないが、小さくなることはありうる。したがって、バイアスのある推定値である。母集団の最大値は小さく推定される傾向がある。
出典