確率変数

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

確率論並びに統計解析に於いて、確率変数とは、ランダムな実験に拠り得られ得る全ての結果を指す変数である[1]:391

数学で言う変数が関数により一義的に決まるのに対し、確率変数は確率に従って定義域内の様々な値を取ることが出来る。

確率変数は、1.これから試行する実験の結果、又は 2.既に試行した実験結果が未だ不確かである場合(実験結果が出揃っていない場合や測定結果が不確実である場合など)の実験結果として取り得る値である。 また概念的に、「客観的に」ランダムな過程(サイコロ振りなど)の結果や、定量的な情報が不完全であることに基づく「主観的な」ランダム性を表すことも出来る。

確率変数が取り得る値に拠って確率が意味する処は、確率論自身の一部ではなく、確率の解釈の結果である厳然とした独立変数である。しかし解釈の如何に因らず数学を用いることが出来る。 確率値を表現する数学の関数は確率分布と呼ばれる。

確率変数は離散数(有限又は数え上げられる値の一覧で、確率分布の特性である確率質量関数により与えられる。離散確率分布参照。)であっても良いし、連続数(定義域内のあらゆる数値で、確率分布の特性である確率密度関数により与えられる。連続確率分布参照。)であっても良い。更に両者の混合タイプも有り得る。 確率変数は確率分布に従ってランダムに選ばれた結果の値と言える。

確率変数の数学的な取り扱いは確率論を参照のこと。 本項では、確率変数を標本空間に定義された可測関数から得られた数値として考える[2]

定義[編集]

確率変数X\colon \Omega \to Eは、その取り得る値 \Omega から取り出した部分 Eに由来する可測関数である。 通常、E = \mathbb{R}である。そうでない場合は確率要素として考察する(概念の拡張参照)。 \OmegaEの両方が可測空間である為に公理的定義が必要とされる(測度論的定義参照)。

実数関数として、Xはしばしば実験対象の量を記述する。 例えて言えば、或る回数コイントスをした場合に表が出た回数や、様々な人々の身長などである。

X(或いは範囲)が有限若しくは可算集合である時、確率変数は離散確率変数と呼ばれ[1]:399、その分布はXの像の値其々に関連付けられた確率として確率質量関数で記述できる。 像が不可算無限集合であるならばXは連続確率変数と呼ばれる。 また特別な場合として、絶対連続の場合にはその分布は区間内の確率として確率密度関数で記述される。注意すべき点は、其々独立した「点」で絶対連続な確率変数の値=0であるという事である。 全ての連続確率変数が絶対連続だというわけではない[3]混合分布英語版がその例である。 そのような確率変数は確率密度関数または確率質量関数で記述できない。

あらゆる確率変数は累積分布関数で記述できる。累積分布関数とは、確率変数が或る値以下である確率を示すものである。

実例[編集]

例えば、ランダムに選ばれた人についてその身長を確率変数として得る場合を考える。 数学的には、確率変数は 対象となる人→その身長 という関数を意味する。 確率変数と関連するのは確率分布であり、妥当に有り得る範囲の確率(身長180cm以上190cm以下である確率や 150cm未満又は200cm超である確率)を計算できるようになる。

もう一つの確率変数の例は、或る人に何人の子供が居るかというものである。 これは非負の整数値を取る離散的確率変数である。 この場合、各整数値での確率を計算することが出来る(確率質量関数(PMF))。 また、無限個の仮説を想定することも可能である。例えば、偶数人の子供が居るか、といったものである。 何方の場合に於いても、確率値はPMFの要素の和を無限に取っていくことで求めることが出来る。
子供が0人の可能性 + 子供が2人の可能性 + 子供が4人の可能性 + … という要領である。

このような例では標本空間はしばしば有限に制限される。離散値を無限に計算していくのが数学的に困難だからである。 しかしアウトカムの標本空間内で2つの確率変数が同時に測定される場合、即ち或る人について身長と子供の数とを同時に調査する場合などは、両変数に相関関係が有るのか否かを知るのは容易である。

概念の拡張[編集]

統計学に於ける基本として、確率変数がとる値は実数であり、従って期待値分散その他の値を計算することが出来る。 しかし、ブール変数カテゴリカル変数英語版複素数ベクトル乱数ベクトル英語版ランダム行列乱数列樹形図データセットランダムな形ランダムな多様体ランダム関数英語版確率過程等もまた考えられる。 確率要素という用語はこれら全ての概念を指し示す。

もう1つの拡張は確率過程、即ちインデックス付き確率変数(時間や空間で索引付けしたものなど)である。

この様なより一般化された概念は計算機科学自然言語処理といった非数的要素を扱う分野で特に有用である。 これらの確率要素は実数値の確率変数(主に乱数ベクトル)として取り扱えることが多い。

下記に実例を上げる。

  • 「ランダムな単語」は語彙集合の中で整数のインデックスとしてパラメータ化することが出来る。或いは、単語に対応する特定のベクトル要素一つのみが1で他の全ての要素が0である様な指示ベクトルとして、表現し得る。
  • 「ランダムな文章」はランダムな単語のベクトルとしてパラメータ化することが出来る。
  • 数学に於いてVエッジを持つ「ランダムなグラフ」は、N×N行列を用いて各エッジでの重み並びにエッジ以外での値を0として表すことが出来る。(グラフに重み付けがない場合、エッジ=1、エッジ以外=0)

要素の数値化は、非数的な独立した確率要素を扱う際の必須操作ではない。

実例[編集]

コイントスを実施した時の実験結果は標本空間\Omega = \{\text{heads}, \text{tails}\}で記述される。表が出る方に掛けるとしてここから実測確率変数Yを導くと、


 Y(\omega) =
\begin{cases}
1, & \text{if} \ \ \omega = \text{heads} ,\\
\\
 0, & \text{if} \ \ \omega = \text{tails} .
\end{cases}
 となる。

コインの表(head)と裏(tail)が出る確率が等しい時、確率質量関数f_Yは次式の通りである。


f_Y(y) =
\begin{cases}
\tfrac 12,& \text{if }y=1,\\
\\
 \tfrac 12,& \text{if }y=0,\\
 \end{cases}
標本空間が2つのサイコロの目の和だとした場合、確率変数Sは確率質量関数で計算される離散確率変数であり、期待値は図に示すサイコロの高さで示される。

確率変数はサイコロ振りの時も同様に求められる。サイコロの例で先ず明らかな事は、確率変数Xは {1, 2, 3, 4, 5, 6} からなる2つの数n1n2の和で構成される標本空間内にあるという事である。 この場合、確率変数Xは下記のように2つの数の和で表される。

X((n_1, n_2)) = n_1 + n_2

この時、確率質量関数 ƒX は、下記の式で与えられる。


f_X(S) =  \tfrac{\min(S-1, 13-S)}{36}, \text{for } S \in \{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}

連続値の例として、水平方向に回るルーレットを挙げることが出来る。ここで「確率変数=ルーレットの向き」である。 この"向き"は東西南北の他にもあらゆる方向を指すので、その標本空間の表現には実数が相応しい。 これは真北方向と成す角度で表現できる。 確率変数X=角度とすると、その値は区間[0, 360)(0度以上360度未満)の実数であり、全ての値が取る確率が等しいと期待される。 区間内のあらゆる実数の期待値は0であるが、ある範囲内の角度を成す確率は正の値である。 例えば、[0, 180](0度以上180度以下)となる確率は12である。 確率質量関数の代わりに、Xの確率密度を考えると、1度の確率密度は1360になる。 [0, 360)の範囲の確率は1360ずつの確率を足していく事で計算できる。 一般に、連続確率変数の値は取り得る範囲の値を積分することで計算できる。

混合タイプの確率変数としては例えば、コインを投げて表が出た時のみルーレットを回すという事を考えることが出来る。 コインが裏であれば X = −1、表であれば X = ルーレットの角度 とすると、 この確率変数は12の確率で -1、その他の数[0, 360)である確率は上記の例の半分である。

測度論的定義[編集]

最も形式的に言うと、確率関数の公理的定義は測度論を内包する。 連続確率変数は、確率関数と共に数の集合として定義される。 集合が充分に制約されていない場合には種々の問題(バナッハ=タルスキーのパラドックス)が起こるので、σ-集合代数を導入(して集合を制約)する必要がある。 通常、ボレルσ-集合代数を用いる事で、どんな集合に対しても数の連続区間或いは有限又は可算無限和集合の数、及び/又はそのような区間の共通部分を用いることが出来る様になる[2]

測度論的定義は下記の通りである。

(\Omega, \mathcal{F}, P)確率空間(E, \mathcal{E})可測空間とする。 すると(E, \mathcal{E})の値を持つ確率変数は関数X\colon \Omega \to E(\mathcal{F}, \mathcal{E})可測)である。 後者は、全ての部分集合B\in\mathcal{E}に於いて、X^{-1}(B) = \{\omega : X(\omega)\in B\}である時の原像X^{-1}(B)\in \mathcal{F} を意味している[4]。 この定義は、可測であると仮定される原像に着目することで観察空間内の全ての部分集合B\in \mathcal{E}を可測にする。

E位相空間である時、最も一般的なσ-集合代数\mathcal{E}ボレルσ-集合代数\mathcal{B}(E)である。 これは、Eの全ての開集合のコレクションから生成されたσ-集合代数である。 この時、(E, \mathcal{E})の値を持つ確率変数をE-valued random variableと呼ぶ。 更に、空間Eが数直線\mathbb{R}である時、その様な実数確率変数を単に確率変数という。

実数確率変数[編集]

ここでは観測値を実数とする。(\Omega, \mathcal{F}, P)が確率空間である。 下記の場合、実測値空間として、関数X\colon \Omega \rightarrow \mathbb{R}を実数確率変数とする。

\{ \omega : X(\omega) \le r \} \in \mathcal{F} \qquad \forall r \in \mathbb{R}.

この定義は上記の特別な場合である。 集合\{(-\infty, r]: r \in \R\}が実数空間内にボレル完全加法族を成し、それが集合の可測性を示す十分条件だからである。 これで\{ \omega : X(\omega) \le r \} = X^{-1}((-\infty, r])を用いて生成する集合の可測性が証明される。

確率変数の分布関数[編集]

確率変数X\colon \Omega \to \mathbb{R}が確率空間(\Omega, \mathcal{F}, P)内に定義されたとすると、「Xの値が2に等しい確率はどれほどか?」等と問うことが出来る。 これは事象\{ \omega : X(\omega) = 2 \}\,\! の確率と同じであり、しばしば短くP(X = 2)\,\!p_X(2)と記述される。

実数確率変数Xが示す範囲の確率を全て記録すると、X確率分布が得られる。 確率分布はXの定義に使われた特定の確率空間を「忘れる」ので、Xの様々な値の確率を記録するのみである。 この様な確率分布は常に累積分布関数で捉えることが出来る。

F_X(x) = \operatorname{P}(X \le x)

加えて確率密度関数p_Xを使える場合も多い。 測度論的には確率変数Xは、\Omega上でのPの測定から\mathbb{R}上でのp_Xの測定に「押し進める」物、と言える。 根底にある確率空間\Omegaは確率変数の存在を保証するツールであり、しばしば変数を構成し、同一確率空間内の2つ以上の変数の同時分布に於ける相関・依存英語版独立性の基礎となる。 実際は、空間\Omega全体に1つの変数を置き、数直線\mathbb{R}全体で1つの変数とする。 つまり、その変数が確率変数に代わって確率分布する。

モーメント[編集]

確率変数の確率分布は、多くの場合実用的な意味を持つ少数のパラメータで規定される。 例として、「平均値」は確率変数の期待値(E[X])の数学的概念として捉えられ、一次モーメントと呼ばれる。 一般に、E[f(X)] は f(E[X]) と等しくない。 「平均値」が判ると次にXの値が平均値からどれほど離れているのかが次の疑問となる。 その問いに答えるのが確率変数の分散及び標準偏差である。 E[X]は要素数が無限個の当該母集団から得られた平均値として直感的に了解できる。

数学的には、与えられた確率変数Xが所属する母集団に関する(一般化された)モーメント問題英語版として知られ、確率変数Xの分布の性質を示す期待値E[fi(X)]の関数のコレクション{fi}である。

モーメントは確率変数が実数関数である場合(複素数等についても)に定義できる。  確率変数自身が連続であるならば、変数のモーメント自身は確率変数の恒等関数f(X)=Xと等価である。 然し、非実数の確率変数の場合にも、モーメントをその変数の実数関数として得ることが出来る。 例えば、名義尺度変数Xとして「赤」、「青」、「緑」がある場合、実数関数[X = \text{green}]を考えることが出来る。 こうしてアイバーソンの記法を用いることで、Xが「緑」の時は1、それ以外は0と記述できるので、期待値及び他のモーメントを定義できる。

確率変数の関数[編集]

A new random variable Y can be defined by applying a real Borel measurable function g\colon \mathbb{R} \rightarrow \mathbb{R} to the outcomes of a real-valued random variable X. The cumulative distribution function of Y\,\! is

F_Y(y) = \operatorname{P}(g(X) \le y).

If function g is invertible, i.e. g−1 exists, and is either increasing or decreasing, then the previous relation can be extended to obtain

F_Y(y) = \operatorname{P}(g(X) \le y) =
\begin{cases}
\operatorname{P}(X \le g^{-1}(y)) = F_X(g^{-1}(y)), & \text{if } g^{-1} \text{ increasing} ,\\
\\
\operatorname{P}(X \ge g^{-1}(y)) = 1 - F_X(g^{-1}(y)), & \text{if } g^{-1} \text{ decreasing} .
\end{cases}

and, again with the same hypotheses of invertibility of g, assuming also differentiability, we can find the relation between the probability density functions by differentiating both sides with respect to y, in order to obtain

f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d g^{-1}(y)}{d y} \right|.

If there is no invertibility of g but each y admits at most a countable number of roots (i.e. a finite, or countably infinite, number of xi such that y = g(xi)) then the previous relation between the probability density functions can be generalized with

f_Y(y) = \sum_{i} f_X(g_{i}^{-1}(y)) \left| \frac{d g_{i}^{-1}(y)}{d y} \right|

where xi = gi-1(y). The formulas for densities do not demand g to be increasing.

In the measure-theoretic, axiomatic approach to probability, if we have a random variable X\! on \Omega \,\! and a Borel measurable function g\colon \mathbb{R} \rightarrow \mathbb{R}, then Y = g(X)\,\! will also be a random variable on \Omega\,\! , since the composition of measurable functions is also measurable. (However, this is not true if g is Lebesgue measurable.) The same procedure that allowed one to go from a probability space (\Omega, P)\,\! to (\mathbb{R}, dF_{X}) can be used to obtain the distribution of Y\,\! .

例1[編集]

Let X be a real-valued, continuous random variable and let Y = X2.

F_Y(y) = \operatorname{P}(X^2 \le y).

If y < 0, then P(X2y) = 0, so

F_Y(y) = 0\qquad\hbox{if}\quad y < 0.

If y ≥ 0, then

\operatorname{P}(X^2 \le y) = \operatorname{P}(|X| \le \sqrt{y})
 = \operatorname{P}(-\sqrt{y} \le  X \le \sqrt{y}),

so

F_Y(y) = F_X(\sqrt{y}) - F_X(-\sqrt{y})\qquad\hbox{if}\quad y \ge 0.

例2[編集]

Suppose \scriptstyle X is a random variable with a cumulative distribution

 F_{X}(x) = P(X \leq x) = \frac{1}{(1 + e^{-x})^{\theta}}

where \scriptstyle \theta > 0 is a fixed parameter. Consider the random variable  \scriptstyle Y = \mathrm{log}(1 + e^{-X}). Then,

 F_{Y}(y) = P(Y \leq y) = P(\mathrm{log}(1 + e^{-X}) \leq y) = P(X > -\mathrm{log}(e^{y} - 1)).\,

The last expression can be calculated in terms of the cumulative distribution of X, so

 F_{Y}(y) = 1 - F_{X}(-\mathrm{log}(e^{y} - 1)) \,
 = 1 - \frac{1}{(1 + e^{\mathrm{log}(e^{y} - 1)})^{\theta}}
 = 1 - \frac{1}{(1 + e^{y} - 1)^{\theta}}
 = 1 - e^{-y \theta}.\,

例3[編集]

Suppose \scriptstyle X is a random variable with a standard normal distribution, whose density is

 f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}.

Consider the random variable  \scriptstyle Y = X^2. We can find the density using the above formula for a change of variables:

f_Y(y) = \sum_{i} f_X(g_{i}^{-1}(y)) \left| \frac{d g_{i}^{-1}(y)}{d y} \right|.

In this case the change is not monotonic, because every value of \scriptstyle Y has two corresponding values of \scriptstyle X (one positive and negative). However, because of symmetry, both halves will transform identically, i.e.

f_Y(y) = 2f_X(g^{-1}(y)) \left| \frac{d g^{-1}(y)}{d y} \right|.

The inverse transformation is

x = g^{-1}(y) = \sqrt{y}

and its derivative is

\frac{d g^{-1}(y)}{d y} = \frac{1}{2\sqrt{y}} .

Then:

 f_Y(y) = 2\frac{1}{\sqrt{2\pi}}e^{-y/2} \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{2\pi y}}e^{-y/2}.

This is a chi-squared distribution with one degree of freedom.

Equivalence of random variables[編集]

There are several different senses in which random variables can be considered to be equivalent. Two random variables can be equal, equal almost surely, or equal in distribution.

In increasing order of strength, the precise definition of these notions of equivalence is given below.

Equality in distribution[編集]

If the sample space is a subset of the real line, random variables X and Y are equal in distribution (denoted X \stackrel{d}{=} Y) if they have the same distribution functions:

\operatorname{P}(X \le x) = \operatorname{P}(Y \le x)\quad\hbox{for all}\quad x.

Two random variables having equal moment generating functions have the same distribution. This provides, for example, a useful method of checking equality of certain functions of i.i.d. random variables. However, the moment generating function exists only for distributions that have a defined Laplace transform.

Almost sure equality[編集]

Two random variables X and Y are equal almost surely if, and only if, the probability that they are different is zero:

\operatorname{P}(X \neq Y) = 0.

For all practical purposes in probability theory, this notion of equivalence is as strong as actual equality. It is associated to the following distance:

d_\infty(X,Y)=\mathrm{ess } \sup_\omega|X(\omega)-Y(\omega)|,

where "ess sup" represents the essential supremum in the sense of measure theory.

Equality[編集]

Finally, the two random variables X and Y are equal if they are equal as functions on their measurable space:

X(\omega)=Y(\omega)\qquad\hbox{for all }\omega

収束[編集]

数理統計学の重要なテーマは、大数の法則中心極限定理により確率変数の特定のの収束結果を得る事である。

確率変数列(Xn)を確率変数Xに収束させる方法は様々な物が有る。 詳細は確率変数の収束で説明する。

関連項目[編集]

参照[編集]

  1. ^ a b Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd ed.). New York: Freeman. ISBN 978-0-7167-4773-4. http://bcs.whfreeman.com/yates2e/. 
  2. ^ a b Steigerwald, Douglas G.. “Economics 245A – Introduction to Measure Theory”. University of California, Santa Barbara. 2013年4月26日閲覧。
  3. ^ L. Castañeda, V. Arunachalam, and S. Dharmaraja (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. p. 67. http://books.google.com/books?id=zxXRn-Qmtk8C&pg=PA67. 
  4. ^ Fristedt & Gray (1996, page 11)

参考文献[編集]

外部リンク[編集]