「判別分析」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
編集の要約なし
Takatota (会話 | 投稿記録)
m編集の要約なし
33行目: 33行目:





{{stub}}
[[Category:統計学|はんへつふんせき]]
[[Category:統計学|はんへつふんせき]]
[[Category:数学に関する記事|はんへつふんせき]]

2007年1月12日 (金) 12:55時点における版

判別分析(はんべつぶんせき)は、事前に与えられているデータが異なるグループに分かれることが明らかな場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数)を得るための手法である。

判別関数には直線による線形判別関数(Linear discriminant function)と、非線形の場合には曲線によるマハラノビス汎距離(Mahalanobis' generalized distance)がある。

3つ以上のグループの判別も可能である。これは重判別分析(multiple discriminant analysis)という。

判別分析の式の妥当性は、誤判別率などで評価できる。適した変数選択と判別方法にもとづいて分析することが必要であり、判別式(のみならず変数選択)の妥当性を検証する手法として、元のデータから1つだけ外して判別(モデル)式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、といった、1つとって置き法(leave-1-out)などが一般に用いられる。

入試を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中、70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。 このような教師データが存在する場合(予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる)、判別分析により、 過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。

線形判別関数(y=a1x1+a2x2+…+anxn+a0)の求め方を以下に示す。

第一群、第二群についてそれぞれ平方和・積和を求める。 Wii=Σ(xi-x)^2,Wij=Σ(xi-x)(xj-x)

第一群と第二群の平方和・積和を、同じ2変数について足し、自由度N1+N2-2で除す。 Sij=(Sij(第一群)+Sij(第二群))/(N1+N2-2) Sijを、そのi行j列に対応させて分散共分散行列Sとし、各変数にかかる係数をn行1列に並べた行列をA、 第一群の各変数の平均値から第二群の各変数を引いた数xi(第一群)-xi(第二群)をn行1列に並べた行列をXとすると 以下の式が成り立つ。 SA=X   故にA=S^(-1)x  これにより各変数にかかる係数を求めることが出来る。 定数項は、a0=-1/2[a1{x1(第一群平均値)+x1(第二群平均値)}+…+an{xn(第一群平均値)+xn(第二群平均値)}]

判別得点yが正のとき第一群、負のとき第二群と判別される。 変数が標準化されていれば係数の大きさは、そのままその変数が判別に与える影響の大きさである。

変数が定性的な場合、ダミー変数を用いる。 y=a11x11+a12x12+…a21x21+a22x22+…an1xn1+an2xn2+…a0 ここに、xij:xiのj番目のカテゴリーに反応するとき1、しないとき0