判別分析

判別分析（はんべつぶんせき、英: discriminant analysis）は、事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準（判別関数、英: discriminant function）を得るための正規分布を前提とした分類の手法。英語では線形判別分析（英: linear discriminant analysis）をLDA、二次判別分析（英: quadratic discriminant analysis）をQDA、混合判別分析（英: mixture discriminant analysis）をMDAと略す。1936年にロナルド・フィッシャーが線形判別分析を発表し^[1]^[2]、1996年に Trevor Hastie, Robert Tibshirani が混合判別分析を発表した^[3]。

3つ以上のグループの判別は重判別分析（英: multiple discriminant analysis）や正準判別分析と呼ばれる。

判別関数の種類

判別関数には以下の物などがある。

線形判別関数（英: linear discriminant function）: 超平面・直線による判別。線形判別分析は等分散性が必要。
二次判別関数（英: quadratic discriminant function）: 楕円など二次関数による判別。二次判別分析は等分散性が不要。
非線形判別関数（英: nonlinear discriminant function）: 超曲面・曲線などの非線形判別関数。

前提条件

線形判別分析は、以下の前提条件が成立する必要がある。

各グループは多変量正規分布（英: multivariate normal distribution）している
全てのグループが同じ共分散行列を持つ（等分散性）

その上で、マハラノビス汎距離（英: Mahalanobis' generalized distance）が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。

各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立している場合は正しい結果になる。

線形判別分析において、グループ間の確率のロジットは線形関数となるが、ここで線形関数という仮定を残したまま、正規分布や等分散性の仮定を外すとロジスティック回帰や単純パーセプトロンになる^[4]。

さらに別な方法としては、線形判別関数を使用したい場合は、線形サポートベクターマシンで線形判別関数を求めるという方法もある。

線形判別分析

線形判別関数は以下の通り。これの正負で判断。 $x$ は入力、 $\mu$ は平均、 $\Sigma$ は共分散行列。この式は多変量正規分布の式より導出できる。

(x-{\frac {\mu _{1}+\mu _{2}}{2}})^{T}\Sigma ^{-1}(\mu _{1}-\mu _{2})

より細かく、線形判別関数 (y=a₁x₁+a₂x₂+…+a_nx_n+a₀) の求め方を以下に示す。

第一群、第二群についてそれぞれ平方和・積和を求める。
W_ii=Σ(x_i-x)²,W_ij=Σ(x_i-x)(x_j-x)
第一群と第二群の平方和・積和を、同じ2変数について足し、自由度N1+N2-2で除す。
S_ij=(W_ij（第一群）+W_ij（第二群）)/(N1+N2-2)
S_ijを、そのi行j列に対応させて分散共分散行列Sとし、各変数にかかる係数をn行1列に並べた行列をA、第一群の各変数の平均値から第二群の各変数を引いた数x_i（第一群）－x_i（第二群）をn行1列に並べた行列をXとすると以下の式が成り立つ。
SA＝X ゆえに A＝S^-1X
これにより各変数にかかる係数を求めることができる。
定数項は、a₀=-1/2[a₁{x₁（第一群平均値）+x₁（第二群平均値）}＋…+a_n{x_n（第一群平均値）+x_n（第二群平均値）}]
判別得点yが正のとき第一群、負のとき第二群と判別される。
変数が標準化されていれば、係数の大きさは、そのままその変数が判別に与える影響の大きさである。

変数が定性的な場合は、ダミー変数を用いる。
y=a₁₁x₁₁+a₁₂x₁₂+…a₂₁x₂₁+a₂₂x₂₂+…a_n1x_n1+a_n2x_n2+…a₀

ここに、x_ij:x_iのj番目のカテゴリーに反応するとき1、しないとき0。

二次判別分析

グループの平均を中心に回転・軸方向のスケーリングを行い共分散行列を揃え、線形判別分析を行えば良い。

混合判別分析

単一の正規分布ではなく、混合正規分布で表現した物を混合判別分析という。その場合でも共分散行列は共通の物を使う。混合正規分布を使うことにより複雑な分布も扱えるようになる。混合正規分布はEMアルゴリズムなどで求める。

参照

^ FISHER, R. A. (September 1936). “The use of multiple measurements in taxonomic problems”. Annals of Eugenics 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x.
^ Cohen et al. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences 3rd ed. (2003). Taylor & Francis Group.
^ Trevor Hastie; Robert Tibshirani (1996). “Discriminant Analysis by Gaussian Mixtures”. Journal of the Royal Statistical Society, Series B 58 (1): 155-176.
^ Trevor Hastie, Robert Tibshirani, Jerome Friedman『統計的学習の基礎 ―データマイニング・推論・予測―』共立出版、2014年6月25日。ISBN 978-4320123625。

[1] FISHER, R. A. (September 1936). “The use of multiple measurements in taxonomic problems”. Annals of Eugenics 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x.

[cohen-2] Cohen et al. Applied Multiple Regression/Correlation Analysis for the Behavioural Sciences 3rd ed. (2003). Taylor & Francis Group.

[3] Trevor Hastie; Robert Tibshirani (1996). “Discriminant Analysis by Gaussian Mixtures”. Journal of the Royal Statistical Society, Series B 58 (1): 155-176.

[4] Trevor Hastie, Robert Tibshirani, Jerome Friedman『統計的学習の基礎 ―データマイニング・推論・予測―』共立出版、2014年6月25日。ISBN 978-4320123625。

[1]

[2]

[3]

[4]

判別関数の種類

前提条件

線形判別分析

二次判別分析

混合判別分析

関連項目

参照