統計分類

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

統計分類: Statistical classification)とは、個体をグループ分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例(training set)を用いる。統計的識別ともいう。

形式的に表すと、次のようになる。訓練データ \{(\mathbf{x_1},y_1),\dots,(\mathbf{x_n}, y_n)\} から、オブジェクト \mathbf{x} \in \mathcal{X} から分類ラベル \mathbf{y} \in \mathcal{Y} へマップする分類器(classifier、識別器とも) h:\mathcal{X}\rightarrow\mathcal{Y} を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、\mathbf{x_i} は具体的な電子メールの例であり、y は "Spam" か "Non-Spam" のどちらかである。

統計分類アルゴリズムは主にパターン認識システムなどで使われる。

注: 群集生態学で言う「分類; classification」という用語は、一般に(たとえば機械学習で)データ・クラスタリングと呼ばれているものと同じものを指す。詳しくは教師なし学習などを参照されたい。

統計分類技法[編集]

分類手法は多数存在するが、それらは3つの相互に関連する数学的問題のいずれかを解決する。

第一の問題は、特徴空間(一般に多次元のベクトル空間)からラベルの集合への写像を求める問題である。これは、特徴空間を領域分割して、各領域にラベルを割り当てるのと同じである。このようなアルゴリズム(例えばk近傍法)は事後処理を行わないとクラス確率を生成できないのが一般的である。この問題を解く別のアルゴリズムとしては、特徴空間への教師なし クラスタリングの適用をし、次いで各クラスターまたは領域にラベルを付ける。

第二の問題は、統計分類を一種の予測問題とみなし、以下のような形式の関数を予測することを目標とするものとみなす。

P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right)

ここで、特徴ベクトル入力が \vec x であり、関数 f は一般に \vec \theta の一部によってパラメータ化される。この問題のベイズ推定的アプローチでは、唯一のパラメータベクトル \vec \theta を選ぶのではなく、考えられる全てのθの積分が結果となり、各θが訓練データ D によって与えられる確率で重み付けされる。

P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta

第二の問題とも関連するが、第三の問題は条件付き確率 P(\vec x|{\rm class}) を推測する問題であり、それに第二の問題のようにクラス確率を生成するためにベイズの定理を利用する。

主な統計分類アルゴリズム:

問題の性質(分類すべきデータ)と各種分類アルゴリズム(分類器)の性能の関係は、未だ解決されていない興味深い問題である。Van der Walt と Barnard(参考文献参照)は特定の人工的なデータ群を使って、どの分類器がよい性能を示すかを研究した。

分類器の性能は分類すべきデータの特性に大きく依存する。あらゆる問題について最高の性能を示す分類器は存在しない(ノーフリーランチ定理と同様の現象である)。分類器の性能を比較し、データの特性を特定するために各種実験的検証を実施して分類器の性能を決定する。ただし、ある問題に適した分類器を特定する手法は科学というよりも技能である。

応用分野[編集]

関連項目[編集]

参考文献[編集]

  • C.M. van der Walt and E. Barnard,“Data characteristics that determine classifier performance”, in Proceedings of the Sixteenth Annual Symposium of the Pattern Recognition Association of South Africa, pp.160-165, 2006.

外部リンク[編集]