カーネル (統計学)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

カーネル という語は、統計学において複数の異なる意味に用いられる。

ベイズ統計学[編集]

統計学、特にベイズ統計学において、ある確率密度関数または確率質量関数カーネルとは、確率密度関数や確率質量関数の、ドメイン内のいかなる変数の関数でもないすべての因子が省略されるような形式である[要出典]。そのような因子は、それらの確率密度関数や確率質量関数のパラメーターの関数であってもよい。これらの因子は、確率分布正規化係数の一部をなし、またそれらは多くの場合不要である。

例えば、擬似乱数サンプリングでは、ほとんどのサンプリングアルゴリズムは正規化係数を無視する。さらに、共役事前確率分布のベイズ分析では、計算途中において正規化係数は一般に無視され、カーネルのみが考慮される。最終的に、カーネルの形式が調査され、もしそれが既知の分布に一致すれば、正規化係数は復元されることができる。そうでなければ、正規化係数は不要かもしれない(例えば、その分布はサンプリングに用いられるだけであれば不要である)。多くの分布において、カーネルは閉形式で書くことができるが、正規化定数はそうではない。

一つの例は、正規分布である。正規分布の確率密度関数

であり、対応するカーネルは

である。

指数関数の前にある因子は、 というパラメーターを含みながらも、省略されている。なぜならばそれは、定義域の変数の関数ではないからである。

パターン分析[編集]

再生核ヒルベルト空間のカーネルが、カーネル法として知られる一連の手法において、implicit spaceのデータに対し、クラス識別回帰分析クラスター分析などを実行するのに用いられる。この用法は特に機械学習においてよく用いられる。

ノンパラメトリック統計[編集]

ノンパラメトリック手法において、カーネルとは、ノンパラメトリックな推定手法に用いられる重み付け関数のことである。カーネルは、確率変数確率密度関数を推定するためのカーネル密度推定や、確率変数の条件付き期待値を推定するカーネル回帰に用いられる。カーネルは時系列分析においては窓関数という名称で、ピリオドグラムによってスペクトル密度を推定するのに用いられる。その他の利用法としては、点過程の時間可変な強度の推定にも用いられる。そこでは窓関数(カーネル)は、時系列データとともに畳み込まれる。

ノンパラメトリックな推定を実行する際はふつう、(カーネル関数に加えて)カーネルの幅も指定されなければならない。

定義[編集]

カーネルとは、非負実数値可積分関数 K であって、次の2つの条件を満たすもののことである。

一つめの要件は、カーネル密度推定の結果が確率密度関数となることを担保するものである。

二つめの要件は、対応する分布の平均が、利用されたサンプルの平均に等しくなることを担保するものである。

もし K がカーネルであれば、λ > 0 に対して K*(u) = λKu) で定義される K* もカーネルとなる。この性質は、データに適したスケールを選択するために用いることができる。

よく用いられるカーネル関数[編集]

いくつかの種類のカーネル関数がよく用いられる。たとえば一様、三角、Epanechnikov,[1] quartic (biweight), tricube,[2] triweight, ガウシアン、quadratic[3]、コサインである。

下の表において、1{…}指示関数である。

カーネル関数, K(u) Epanechnikov カーネルに対する相対効率
一様 Kernel uniform.svg     1.076
三角 Kernel triangle.svg     1.014
Epanechnikov Kernel epanechnikov.svg     1.000
Quartic
(biweight)
Kernel quartic.svg     1.006
Triweight Kernel triweight.svg     1.013
Tricube Kernel tricube.svg     1.002
ガウシアン Kernel exponential.svg     1.051
コサイン Kernel cosine.svg     1.0005
ロジスティック Kernel logistic.svg     1.127
Silverman カーネル[4] Kernel Silverman.svg     適用できない
  • 効率性は によって定義される。

上述したカーネルの一部を、同一の座標に表示した図[編集]

All of the above kernels in a common coordinate system

関連項目[編集]

参考文献[編集]

  1. ^ Named for Epanechnikov, V. A. (1969). “Non-Parametric Estimation of a Multivariate Probability Density”. Theory Probab. Appl. 14 (1): 153–158. doi:10.1137/1114019. 
  2. ^ Altman, N. S. (1992). “An introduction to kernel and nearest neighbor nonparametric regression”. The American Statistician 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. 
  3. ^ Cleveland, W. S. & Devlin, S. J. (1988). “Locally weighted regression: An approach to regression analysis by local fitting”. Journal of the American Statistical Association 83: 596–610. doi:10.1080/01621459.1988.10478639. 
  4. ^ Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and Hall, London. 
  • Li, Qi; Racine, Jeffrey S. (2007). Nonparametric Econometrics: Theory and Practice. Princeton University Press. ISBN 0-691-12161-3. 
  • Comaniciu, D; Meer, P (2002). “Mean shift: A robust approach toward feature space analysis”. IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (5): 603–619. doi:10.1109/34.1000236. CiteSeerX: 10.1.1.76.8968.