統計モデル

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

統計モデル(とうけいもでる、statistical model)は、サンプルデータ(およびより多くの母集団からの同様のデータ)の生成に関する一連の統計的仮定を具体化した数理モデル。 統計モデルは、データの生成過程をかなり理想化して表現していることが多い[1]

統計モデルは通常、1つまたは複数の確率変数と他の非確率変数との間の数学的関係として指定される。ヘルマン・アデルがケネス・ボレンを引用したように、統計モデルは「理論の正式な表現」である[2]

すべての統計的仮説検定とすべての統計的推定量は、統計モデルを介して導かれる。さらに言うと、統計モデルは統計的推論の基礎の一部である。

導入[編集]

簡単にいうと、統計モデルは、任意の事象の確率を計算できるような統計的仮定(または統計的仮定の集合)と考えることができる。例として、2つの普通のサイコロ(6面体)を考える。サイコロに関する2つの異なる統計的仮定を検討する。

最初の統計的仮定:各サイコロにおいて、サイコロの各面(1、2、3、4、5、および6)が現れる確率はいずれも である。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

(1 と 2)、(3 と 3)など、あらゆる事象の確率を計算することができる。

もう一つの統計的仮定:各サイコロにおいて、サイコロの目が 5 になる確率は である(重み付け)。この仮定から、両方のサイコロの目が 5 になる確率は次のように計算される。

他の面が出る確率は不明であり、ほかの事象の確率を計算することはできない。

最初の統計的仮定は統計モデルを構成する。なぜなら、その仮定だけで、あらゆる事象の確率を計算できるから。もう一つの統計的仮定は統計モデルを構成しない。なぜなら、仮定だけでは、あらゆる事象の確率を計算できないから。

上記の例では、最初の統計的仮定があれば、事象の確率を計算することはたやすい。計算が困難な場合や、現実的でない場合(数百万年の計算が必要になる場合など)であっても、理論的に計算可能であれば、統計モデルを構成するといえる。

正式な定義[編集]

数学の用語を用いると、統計モデルは通常、ペア として考える。 ここで、 は可能な観測値の集合、つまり標本空間であり、 上の確率分布の集合である[3]

この定義の背後には、次のような直感がある。観測データの生成過程から帰納される「真の」確率分布があると想定する。 を用いて、真の分布を適切に近似した分布を含む集合を表す。

に真の分布が含まれている必要はなく、多くの場合、めったに含まれていない。実際、Burnham と Anderson が述べているように、「モデルは現実の単純化または近似であり、したがってすべての現実を反映するわけではない」 [4] —ゆえに 「すべてのモデルは間違っている」。

集合 は多くの場合パラメータ化され、 と表される。 ここで、集合 はモデルのパラメータを定義する。 パラメータ化のおいて、一般に、異なるパラメータ値が異なる分布を生じさせることが要求される。すなわち、 が成立する(単射である)必要がある。 この要件を満たすパラメーター化は、識別可能と言われる[3]

[編集]

子供の年齢が一様に分布している子供の集団があるとする。子供の身長は、年齢と確率的に関係する。たとえば、子供が 7歳であることがわかっていれば、その子供の身長が 1.5m である可能性に影響する。 この関係を次のような線形回帰モデルで定式化することができる。

ここで、 は切片、は傾き、は誤差項であり、 がどの子供かを示す。この式は、身長が年齢によって予測されるが、多少の誤差があることを意味している。

モデルはすべてのデータポイントと一致していなければならない。直線 は、すべてのデータポイントに正確にフィットしない限り、つまりすべてのデータポイントが完全に直線上に存在する場合を除いて、データのモデルの方程式にはなりえない。モデルがすべてのデータポイントと一致するように、誤差項 をモデルに含める必要がある。

統計的推論を行うためには、 に何らかの確率分布を仮定する必要がある。例えば、独立同分布で平均ゼロのガウス分布に従うなど。この例では、モデルには 3 つのパラメータがある。すなわち、 とガウス分布の分散である。

モデルを以下のように の形で正式に規定することができる。モデルの標本空間 は、すべての可能なペア(年齢、身長)の集合から構成されている。 の可能な値のそれぞれが、 上の分布を決定する。 その分布を とする。 の全ての可能な値の集合とすると、 である。そしてこのパラメータ化は識別可能である。

この例では、(1) を特定し、(2) に関連する仮定を立てることで、モデルが決定される。 に関する仮定とは、高さが年齢の線形関数で近似できること、近似の誤差が独立同分布のガウス分布に従うこと、の 2つであり、 を特定するのに十分である。

総論[編集]

統計モデルは、特殊なクラスの数理モデルである。他の数学モデルと異なるのは非決定論的であるという点で、一部の変数は確率的である(特定の値を持たず、代わりに確率分布がある)。 子供の身長の例では、 が確率変数である。

統計モデルは、データ生成過程が決定論的であっても、しばしば使用される。たとえば、コイントスは原理的には決定論的な過程だが、一般に確率論として(ベルヌーイ過程を介して)モデル化される。

所与のデータ生成過程を表現する適切な統計モデルを選択することは時として非常に困難であり、データ生成過程と統計分析の両方の知識が必要になる場合がある。 これに関連して、統計学者のデイヴィッド・コックス卿は、「対象となる問題から統計モデルへの変換をどのように行うかが、分析の最も重要な部分であることが多い」と述べている[5]

小西らによると、統計モデルには3つの目的がある[6]

  • 予測
  • 情報の抽出
  • 確率的構造の説明

後年、Friendlyらは予測、推定、説明と言い換えた[7]。これら 3つの目的は、演繹的推論帰納的推論仮説的推論の3つに対応している。

モデルの次元[編集]

たる統計モデル を仮定する。 が有限の次元を持つとき、モデルは「パラメトリックである」と言われる。 自然数 を用いて、 と記載する。実数を表すが、原則的には他の集合を用いてもよい。ここで、 はモデルの次元と呼ばれる。

データが単変量ガウス分布から生じると仮定すると、次のように仮定する。

この例では、次元 は2に等しい。

別の例として、データが点 で構成されて直線に沿って分布し、残差が独立同分布のガウス分布(平均ゼロ)に従うとする。こうすることで子供の身長の例で使用されたものと同じ統計モデルが得られる。 統計モデルの次元は3で、直線の切片、直線の傾き、残差の分布の分散が含まれる。

形式的には 次元の単一のパラメータだが、 個の独立なパラメータと見做す場合もある。 例えば、たとえば、単変量ガウス分布では、 は形式的には次元 2 の単一のパラメーターだが、平均と標準偏差の2つのパラメータとみなす場合もある。

パラメータ集合 が無限次元の場合、その統計モデルはノンパラメトリックである。 有限次元と無限次元の両方のパラメータがある場合、その統計モデルはセミパラメトリックである。 正式には、 の次元数、 が標本数であるとき、セミパラメトリックモデルでもノンパラメトリックモデルでも である。 また、 ならセミパラメトリックであり、そうでなければノンパラメトリックである。

パラメトリックモデルは、これまでで最も一般的に使用されている統計モデルである。 セミパラメトリックモデルとノンパラメトリックモデルについて、デイヴィッドコックス卿は、「これらは一般的に、構造や分布形式の仮定が少ないが、通常は独立性に関する強い仮定を含む」と述べている[8]

ネステッド・モデル(入れ子モデル)[編集]

2つの統計モデルは、第1のモデルのパラメータに制約を加えることで、第1のモデルを第2のモデルに変換できる場合、入れ子になっている(ネストされている、ネステッド)と表現する。 例えば、すべてのガウス分布の集合は、その中にゼロ平均ガウス分布の集合が含む。 ゼロ平均分布を得るために、全ての害す分布の集合の平均を制約する。

次の例として、2次モデル

の中には、ネストされた線形モデルがある

ここで、 となるようにパラメータ に制約を加えた。

これらの両方で、最初のモデルは2番目のモデルよりも高い次元を持っている(最初の例では、ゼロ平均モデルは次元1を持っている)。 このことは、常にではないが、多くの場合に当てはまる。 次元2の正平均ガウス分布の集合は、すべてのガウス分布の集合内にネストされている。

モデルの比較[編集]

統計モデルの比較は、統計的推論の基本である。 実際に、Konishi & Kitagawa (2008) は「統計的推論における問題の大部分は、統計的モデリングに関連する問題であると考えることができ、それらは通常、いくつかの統計モデルの比較として定式化される」と述べている。

モデルを比較するための一般的な基準としては、決定係数ベイズ因子赤池情報量規準尤度比検定とその一般化である相対尤度などがある。

脚注[編集]

参考文献[編集]