マハラノビス距離
マハラノビス距離(マハラノビスきょり、英語: Mahalanobis' distance)とは、統計学で用いられる一種の距離である。「普通の距離を一般化したもの」という意味でマハラノビス汎距離(マハラノビスはんきょり)ともいう。プラサンタ・チャンドラ・マハラノビスにより1936年導入された[1]。
概要
[編集]特徴
[編集]多変数間の相関に基づくものであり、多変量解析に用いられる。新たな標本につき、類似性によって既知の標本との関係を明らかにするのに有用である。データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。
定義
[編集]ある集団内の点が多変数ベクトル で表されるとき、その集団の変数ごとの平均値を縦ベクトルで と表し、集団の共分散行列(各変数間の共分散を配列した行列)を とすれば、ある点 からの集団へのマハラノビス距離は、以下のように定義される:
平方根の内側は、縦ベクトルの転置と行列と縦ベクトルの積であり、スカラー量(正値二次形式)で正である。
マハラノビス距離はまた、共分散行列が で同じ確率分布に従う2つの確率変数ベクトル、 と の間の隔たりの指標としても定義できる:
共分散行列が対角行列であれば(相異なる変数に相関がないということ)、マハラノビス距離は「正規化ユークリッド距離」と呼ばれる:
ここで は、 の集合における標準偏差である。さらに共分散行列が単位行列であれば、マハラノビス距離はユークリッド距離と一致する。
直感的解釈
[編集]データをN-次元ユークリッド空間の点で表して、これがある集団(与えられた複数の標本点がこれに属すことがすでにわかっている)に属す確率を求めることを考えよう。
まずは標本点の平均あるいは重心を求める。直感的には、目的としている点がその重心に近いほど、その集団に属す確からしさが高い。しかし集団の大きさも知る必要がある。単純な方法としては、重心から各標本点への距離の標準偏差を求める方法がある。標本点と重心との距離が1標準偏差よりも小さければ、標本点がその集団に属す確からしさが高いといえる。距離が遠く離れているほど、点がその集団に分類されない可能性が高くなる。
この直感的な考え方は、点と集団との間の正規化距離を と定義することで定量化できる。これを正規分布に当てはめると、点が集団に属す確率が求められる。この方法の欠点は、標本が重心のまわりに球状に分布していると仮定していることである。分布が球状でないとしたら、確率は重心からの距離だけでなく方向にも依存するだろう。
例えば分布が楕円状だった場合、短軸方向の距離は小さくなければならないが、長軸方向の距離はより大きい値を取りうるだろう。分布を最もよく表現する楕円は、共分散行列によって見積もることが出来る。そして重心から標本点までの距離を、その方向における楕円の幅で割ったものがマハラノビスの距離である。(集団の分布密度が多次元の一般化正規分布関数であることを仮定していることになる)
てこ比との関係
[編集]マハラノビス距離はてこ比(leverage)h という統計量と密接な関係がある。多変数データ集合の重心から目的とする点までのマハラノビス距離は、その点のてこ比に (N − 1) をかけたものとなる(ここでN はデータ集合の点の数)。
応用
[編集]統計分類への応用
[編集]マハラノビス距離はクラスタリングなどの統計分類に幅広く使われる。ある点をNクラスの1つに分類するのにマハラノビス距離を利用するには、まず各クラスの共分散行列を(普通はそれに属すことがすでにわかっている標本に基づいて)求める。次に、試験標本が与えられたら、各クラスへのマハラノビス距離を計算する。そしてマハラノビス距離が最小となるようなクラスに属すとして分類を決定する。これは上記の確率的解釈によれば、確率の最高となるクラスを選ぶことに等しい。またマハラノビス距離とてこ比は、線形回帰モデルを作る際、外れ値を決定するのによく使われる。他の標本集団からのマハラノビス距離が大きな点は、てこ比が高いという。これは、回帰曲線の勾配などの係数に対する影響が大きいということである。
マハラノビス・タグチ・システム
[編集]品質工学の分野において、マハラノビス距離を田口玄一が応用した手法として、MTS(マハラノビス・タグチ・システム)、MT法がある。当初はマハラノビス距離をSN比で評価しようという手法を指したが、発展してマハラノビス距離を使用しない手法についてもこの名が使われる場合がある。なお、命名はマハラノビスや田口ではなく、田口玄一自身は直交化を使っているため、マハラノビス・タグチ・シュミット法と呼ばれることを希望している[2]。
脚注
[編集]参考文献
[編集]- Mahalanobis, Prasanta Chandra (1936). “On the generalized distance in statistics”. Proceedings of the National Institute of Sciences of India 2 (1): 49-55 2023年9月10日閲覧。.
- 田口玄一『タグチメソッドわが発想法: なぜ私がアメリカを蘇らせた男なのか』経済界、1999年11月。ISBN 4766781937。
- 田口玄一、兼高達貮 編 編『MTシステムにおける技術開発』日本規格協会〈品質工学応用講座〉、2002年6月。ISBN 978-4542511149。
- 孫寧、安倍正人、根元義章「和書改良型マハラノビス距離を用いた高精度な手書き文字認識」『情報処理学会研究報告 グラフィクスとCAD研究会報告』第94巻第110号、1994年12月、pp.169-176。
- 繁田亜友子、濱本和彦、野須潔「英語リスニング電子教材を対象とした眼球運動分析による学習者の主観難易度の推定」『東海大学紀要 開発工学部』第20巻、2011年3月、pp.117-125。
関連項目
[編集]外部リンク
[編集]- フリーソフト 統計学:マハラノビスの汎距離の計算、2014年2月10日閲覧。
- アングルトライ株式会社 MTシステム概要、2014年2月10日閲覧。