確率分布

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

確率変数確率分布(かくりつぶんぷ, 英語: probability distribution)とは、確率変数の各々の値に対して、その起こりやすさを記述するものである。

概要[編集]

例えば、「サイコロを二つ振ったときの出た目の和」は確率変数であるが、その分布は次の表のように書くことができる。

出た目の和 2 3 4 5 6 7 8 9 10 11 12
確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

すなわち、確率分布は値に確率を対応させる関数ということができる。確率変数がこのように離散的な値しかとらないときは上のような理解で十分である。しかし、例えば「次に電話がなるまでの時間」といった連続的な値をとる確率変数の分布はこのような形では表現できず、測度の概念が必要になる。

「次に電話がなるまでの時間」の分布の一部を表にしたとき、次のようになったとする。

次の電話 1時間以内 1 - 2時間後 2 - 3時間後 3 - 4時間後 4時間以上先
確率 1/2 1/4 1/8 1/16 1/16

この表だけでは「次に電話がなるまでの時間」を正確に記述しているとはいえない。完全なものにするためには、次の電話がa - b時間後になる確率をすべて記述する必要がある。「次に電話がなるまでの時間」を X と書くことにすれば、この確率は

P(a < X \leq b) = \left(\frac{1}{2}\right)^a - \left(\frac{1}{2}\right)^b

と書ける。累積分布関数(るいせきぶんぷかんすう cumulative distribution function, CDFFX

F_X(t) = P(X \leq t) = \begin{cases}1-\left(\frac{1}{2}\right)^t, & t \geq 0 \\ 0, & t < 0 \end{cases}

で定めれば、

P(a < X \leq b) = F_X(b) - F_X(a)

のように、一変数関数で分布を表現できるので便利である。さらに、FX導関数 fX確率密度関数frequency functionまたは probability density function(PDF)) と呼ばれ、確率は積分を用いて

P(a < X \leq b) = \int_a^b f_X(t) dt

と書ける。

通常、連続値をとる確率変数の分布は確率密度関数を用いて記述される。なぜかというと、確率密度関数は初等関数で書けるが、累積分布関数は書けない場合が多いからである。

公理主義的な確率論においては、d次元ベクトル値確率変数の確率分布とは、その確率変数の引き起こす像測度のことである。この測度は d次元ユークリッド空間上の確率測度であり、ユークリッド空間の部分集合に対して、確率変数の値がその集合に入る確率を与える関数となる。

単に確率分布というときは、d次元ユークリッド空間などのよく使われる可測空間上で定義された確率測度のことをいう。ただの確率測度と違って空間に散らばっている様子がグラフなどの目に見える形で表現できるので「分布」と呼ばれる。

確率論で、確率変数の分布を考えるのは、その変数だけを確率論的な議論の対象にしたい場合である。例えば、確率変数がある値を取る確率や、期待値分散といった量は変数の分布が分かれば計算できる量である。 逆に分布を考えることによって隠れた変数ωと確率変数との対応関係は失われてしまい、他の確率変数との関連性も不明になる。例えば、確率変数XYの分布がそれぞれPXPYのように与えられたとしても、ふたつの変数の関連性は分からないので、X+Y がある値を取る確率や、積 X Y の期待値、X+Y の分散といった量は計算できない。このような量を計算したいときは、XY結合分布が必要となる。

よく使われる確率分布にはそれぞれ名前がついており性質がよく研究されている。このような分布をもつ確率変数に対して研究の結果を利用することができる。例えば、確率変数の分布が平均 0 分散 1 の正規分布だった場合、その変数が 2 以上の値を取る確率は数表から 2.28% である。

定義[編集]

確率分布[編集]

  • 1次元確率分布とは (R, B(R)) 上で定義された確率測度のことである。
  • 同様に d 次元確率分布とは (Rd, B(Rd)) 上で定義された確率測度のことである。

確率変数の確率分布[編集]

実数値確率変数 X の分布 PX像測度であるから

P_X(A) = P(X \in A),\ \ \ A \in B(\mathbb{R})

で定義される確率測度のことである。

同様に Rd 値確率変数 X の分布 PX

P_X(A) = P(X \in A),\ \ \ A \in B(\mathbb{R}^d)

で定義される確率測度のことである。

確率変数 X の分布がある確率分布 μ に一致するとき、Xμ に従う確率変数であるという。例えば、「X は平均 0 分散 1 の正規分布に従う」のように使い、これを記号で

 X \sim N(0, 1)

のように書く。

分布関数[編集]

実数値確率変数 X分布関数(ぶんぷかんすう, distribution function)あるいは、一次元確率分布 PX分布関数とは

F_X(x) = P(X \leq x) = P_X((-\infty, x])

で与えられる関数 FX のことである。累積分布関数 (るいせきぶんぷかんすう, cumulative distribution function) ともいう。

定義から分布関数は右連続であるが、左連続かどうかはわからない。これが連続であるときに確率分布は連続であるという。分布関数が高々可算個の値しかとらない場合は確率分布は離散であるという。

確率密度関数[編集]

確率分布 PX絶対連続であるというのは、任意の(ルベーグ測度に関しての)零集合 A にたいして、

P_X(A) = 0\!

が成り立つことを言う。これは測度の絶対連続性と同じである。 確率分布 PX が絶対連続のとき、測度論のラドン-ニコディムの定理英語版によりラドン-ニコディム微分 fX が存在する。この fX のことを確率密度関数frequency functionまたは probability density function(PDF)) と呼ぶ。 PX は確率密度関数を用いて

P(X \in A) = P_X(A) = \int_A f_X(x) dx

と書くことができる。とくに A が区間の場合は

P(a < X < b) = P(a \leq X < b) = P(a < X \leq b) = P(a \leq X \leq b) = \int_a^b f_X(x) dx

となる。区間の端点はいれてもいれなくても確率は同じである。

確率質量関数[編集]

確率分布 PX が離散のときに確率密度関数に対応する関数として確率質量関数(かくりつしつりょうかんすう, probability mass function)(単に確率関数(かくりつかんすう、probability functionまたはprobability mass functionrandom functionstochastic function)ともいう)を使うことができる。確率変数 X のとる値の集合が S = {x1, x2, ...} だとすると確率質量関数は

f_X(x_i) = P(X = x_i) = P_X(\{x_i\})\!

で定まる関数 fX のことである。

同時分布と周辺分布[編集]

複数の確率変数の挙動を多次元の確率分布で表したものを同時分布(どうじぶんぷ, simultaneous distribution)という。同時分布から各変数の分布だけを取り出したものを周辺分布(しゅうへんぶんぷ, marginal distribution)と呼ぶ。これらについては同時分布の項目に詳しい。

代表的な確率分布[編集]

代表的な確率分布は離散型または絶対連続型のもののみを挙げる。他には離散でも連続でもないもの、連続であるが絶対連続ではないものなどが考えられるが通常現れる分布ではない。

離散型[編集]

サイコロを投げた時に出る目の数字など、確率変数が離散的な値をとる場合の確率分布は離散型確率分布である。

離散型の分布は母数と台 S確率質量関数 f で特徴付けられる。台というのは確率変数のとる値の集合のことである。

連続型[編集]

ある地点での通行人の体重など、確率変数が連続的な場合の確率分布は連続型確率分布である。

絶対連続な分布は母数と台と確率密度関数 f で特徴付けられる

確率分布の利用法[編集]

確率変数の確率分布が与えられると、その変数に関する確率期待値分散などが以下のように計算できる。

X は連続値をとる確率変数で密度関数fX であるとする。 Y は離散値をとる確率変数で台は S = {y1, y2, ...} で質量関数fY であるとする。

確率の計算[編集]

  • Xa 以上 b 以下の値を取る確率
    • P(a \leq X \leq b) = \int_a^b f_X(x) dx
  • Y の値が集合 T \subset S に入る確率
    • P(Y \in T) = \sum_{y_k \in T} f_Y(y_k)

期待値の計算[編集]

関数 g が与えられたときに g(X) と g(Y) の期待値は

E[g(X)] = \int_{-\infty}^{+\infty} g(x) f_X(x) dx
E[g(Y)] = \sum_{y_k \in S} g(y_k) f_Y(y_k)

とくに

E[X] = \int_{-\infty}^{+\infty} x f_X(x) dx
E[Y] = \sum_{y_k \in S} y_k f_Y(y_k)

分散の計算[編集]

XY の分散は

V[X] = \int_{-\infty}^{+\infty} (x - E[X])^2 f_X(x) dx = \int_{-\infty}^{+\infty} x^2 f_X(x) dx - E[X]^2
V[Y] = \sum_{y_k \in S} (y_k - E[Y])^2 f_Y(y_k) = \sum_{y_k \in S} y_k^2 f_Y(y_k) - E[Y]^2

変数変換[編集]

確率変数の変数変換による新しい変数の密度関数は、元の変数の密度関数で書くことができる。この公式は重積分における変数変換とほぼ同様である。

確率密度関数の変数変換公式[編集]

Rd から Rd への関数 T により、Rd 値確率変数 XY

X = T(Y)

と書けているとすると、Y密度関数X の密度関数を用いて

 f_Y(y_1, \ldots, y_d) = |(\det J_T)(y_1, \ldots, y_d)| f_X(T(y_1, \ldots, y_d))

となる。ただし Jヤコビアン とする。

例えばボックス-ミューラー変換は (0, 1]2 上の一様分布に従う確率変数 X = (X1, X2) を

Y_1 = \sqrt{-2 \ln X_1} \sin(2\pi X_2)
Y_2 = \sqrt{-2 \ln X_1} \cos(2\pi X_2)

によって変換する。X の密度関数は

f_X(x_1, x_2) = \begin{cases}1, & (x_1, x_2) \in (0, 1]^2\\ 0, & (x_1, x_2) \notin (0, 1]^2\end{cases}

であり、上の公式を当てはめると Y の密度関数は

f_Y(y_1, y_2) = \frac{1}{2\pi}\exp\left(-\frac{y_1^2+y_2^2}{2}\right)

となり、Y が二次元の標準正規分布に従うことが分かる。このように単純な分布を持つ変数を変換して、複雑な分布を作る操作は計算機による乱数の生成で重要となる。

確率変数の和の確率分布[編集]

2つの確率変数 XY の和 X + Y の確率分布や差 X - Y の確率分布は変数変換公式により計算できる。特に XY独立で、確率密度関数がそれぞれ fXfY だったとすると、和と差の確率密度関数は

f_{X+Y}(t) = \int_{-\infty}^{+\infty} f_X(t-y)f_Y(y)\, dy
f_{X-Y}(t) = \int_{-\infty}^{+\infty} f_X(t+y)f_Y(y)\, dy

となる。

とくに和の確率密度関数は二つの分布の確率密度関数の畳み込みである。また、特性関数は確率密度関数のフーリエ変換であり、畳み込みのフーリエ変換は周波数領域における積であることから、和の特性関数は二つの分布の特性関数の積となる。

なお、確率変数の和の確率分布が元の分布族に従う場合、その分布は再生性があるという。

関連項目[編集]