カーネル密度推定

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
100個の正規分布乱数のカーネル密度推定。平滑化帯域幅がそれぞれの曲線で異なる。

カーネル密度推定(カーネルみつどすいてい、: Kernel density estimation)は、統計学において、確率変数確率密度関数推定する手法の1つ。エマニュエル・パルツェンの名をとってパルツェン窓: Parzen window)とも。大まかに言えば、ある母集団標本のデータが与えられたとき、カーネル密度推定を使えばその母集団のデータを外挿できる。

ヒストグラムは、一様な幅の箱が並んだカーネルのカーネル密度推定から標本点を集積したものと見ることもできる。

定義[編集]

x1, x2, ..., xN ~ ƒ を確率変数の独立かつ同一な分布に従う標本としたとき、その確率密度関数のカーネル密度推定は次のようになる。

\widehat{f}_h(x)=\frac{1}{Nh}\sum_{i=1}^N K\left(\frac{x-x_i}{h}\right)

ここで、Kカーネル関数h はバンド幅(平滑化パラメータ)である。K としては、標準的なガウス関数(平均がゼロで分散が1)を採用することが多い。

K(x) = {1 \over \sqrt{2\pi} }\,e^{-\frac{1}{2}x^2}

直観的説明[編集]

あまり平滑でない推定器(例えばヒストグラム密度推定器)は漸近的に一致させられるが、他の推定器は不連続であるか、カーネル密度推定より収束が遅い。カーネル密度推定器は、標本を一定幅の箱に入れて数えるのではなく、カーネル関数から決定されたコブを各標本に与えるものと見ることができる。つまり、「コブの総和」によって推定が形成されるため、結果として非常に滑らかになる(下図参照)。

6つのガウス曲線(赤)とそれらの総和(青)。パルツェン窓密度推定 f(x) は、この総和を6(元のガウス曲線の数)で割ることで得られる。ガウス関数の分散は 0.5 に設定されている。見ての通り、標本点が稠密にあるほど、密度推定値は大きくなる。

特性[編集]

ƒ の L2 リスク関数\scriptstyle R(f,\hat f(x)) とする。ƒ と K に関する弱い仮定から次が得られる。

R(f,\hat f(x)) \approx \frac{1}{4}\sigma_k^4h^4\int(f''(x))^2\,dx + \frac{\int K^2(x)\,dx}{nh}\text{ where }\sigma_K^2 = \int x^2K(x)\,dx

理論的リスク関数を最小化することで、最適なバンド幅は以下のように示される。

h^* = \frac{c_1^{-2/5}c_2^{1/5}c_3^{-1/5}}{n^{1/5}}

ここで

c_1 = \int x^2K(x)\,dx
c_2 = \int K(x)^2\,dx
c_3 = \int (f''(x))^2\,dx

である。最適なバンド幅を選択したとき、リスク関数は \scriptstyle R(f, \hat f(x))\, \approx\, \tfrac{c_4}{n^{4/5}} であり c4 > 0 はある定数である。弱い仮定の下で、カーネル推定器より早く収束するノンパラメトリックな推定器は存在しないことが示される。なお、n−4/5 という収束レートは、パラメトリックな手法での典型である n−1 という収束レートよりも遅い。

実装例[編集]

  • MATLAB - カーネル密度推定は ksdensity 関数で実装されている。
  • Stata - kdensity で実装されている。例えば、histogram x, kdensity
  • R言語 - density 関数で実装されている。
  • SAS - proc kde は1変量または2変量のカーネル密度推定に使われる。
  • PAST - Plot項目の中のHistogramで,カーネル曲線が描ける。

関連項目[編集]

参考文献[編集]

  • Parzen E. (1962). On estimation of a probability density function and mode, Ann. Math. Stat. 33, pp. 1065-1076.
  • Duda, R. and Hart, P. (1973). Pattern Classification and Scene Analysis. John Wiley & Sons. ISBN 0-471-22361-1.
  • Wasserman, L. (2005). All of Statistics: A Concise Course in Statistical Inference, Springer Texts in Statistics.

外部リンク[編集]