「マン・ホイットニーのU検定」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
TXiKiBoT (会話 | 投稿記録)
m ロボットによる 追加: hr:Test sume rangova
SilvonenBot (会話 | 投稿記録)
m r2.5.4) (ロボットによる 追加: fi:U-testi
53行目: 53行目:
[[es:Prueba U de Mann-Whitney]]
[[es:Prueba U de Mann-Whitney]]
[[fa:آزمون مان-ویتنی]]
[[fa:آزمون مان-ویتنی]]
[[fi:U-testi]]
[[hr:Test sume rangova]]
[[hr:Test sume rangova]]
[[it:Test di Wilcoxon-Mann-Whitney]]
[[it:Test di Wilcoxon-Mann-Whitney]]

2011年2月24日 (木) 09:27時点における版

マン(Mann)・ホイットニー(Whitney)のU検定(-ユーけんてい)はノンパラメトリックな統計学的検定で最もよく知られるものの1つである。またウィルコクソン(Wilcoxon)の順位和検定と呼ばれるのも実質的に同じ方法であり、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。

独立な2組の標本の有意差検定として用いられ、変数は順位としてとれば(つまり2つを比較してどちらが大きいかがわかっていれば)よい。2つの観察された分布の間の重なりの度合が偶然で期待されるよりも小さいかどうかを、「両標本が同じ母集団から抽出された」との帰無仮説に基づいて検定する方法である。

U (帰無仮説の下ではその分布がわかっている)と呼ばれる統計量を求める。標本サイズが小さい場合にはこの分布は数表になっているが、約20以上の場合には正規分布でよい近似ができる。U でなく一方の標本について順位和を用いるような方法もあるが、特によい方法ではない。

統計パッケージにもたいてい入っているが、特に小標本の場合には手計算でもできる。方法には以下の2つがある:

  • 小標本に対しては、直接計算する方法がよい。簡単にできて統計量U の意味が理解しやすい。観察度数あるいは標本サイズが小さいほうの標本を選んで、これを標本1、もう一方を標本2とする。標本1の各観察について、標本2の中でそれよりも小さい値が得られた観察の度数を数える。これらの度数をすべて総和したものがU である。
  • 大標本に対しては、公式を用いる。すべての観察を並べて1つの順位系列とし、小さい方の標本の順位を総和する。全ての順位の和はN(N + 1)/2 (ここで N は全観察数)に等しいから、U は次のように求められる:

ここで n1n2 は2組の標本の大きさで、 R1 は標本1.

の順位の和である。

U の最大値は2標本の大きさの積で、上記の方法で得られた値がこの最大値の半分より大きい場合は、それを最大値から引いた値を数表で見つけ出せばよい。

たとえば、イソップが「カメがウサギに競走で勝った」というあの有名な実験結果に疑問を持っているとしよう。彼はあの結果が一般のカメ、一般のウサギにも拡張できるかどうか明らかにするために有意差検定を行うことにする。6匹のカメと6匹のウサギを標本として競走させた。動物たちがゴールに到達した順番は次の通りである(Tはカメ、Hはウサギを表す):

T H H H H H T T T T T H (あの昔使ったカメはやはり速く、昔使ったウサギはやはりのろかった。でも他のカメとウサギは普通通りに動いた)Uの値はどうなるか?

直接的な方法では、各カメを順番にとり、それぞれが負かしたウサギの数を数えると、こうなる: 6, 1, 1, 1, 1, 1。したがって U = 6 + 1 + 1 + 1 + 1 + 1 + 1 = 11。

間接的な方法では: 各カメの順位の合計は1 + 7 + 8 + 9 + 10 + 11 = 46になる。

全動物の順位の合計は12×13÷2 = 78になる。

だからウサギの順位の合計 = 78 − 46 = 32。

したがって U = 6×6 + 6×7÷2 − 46 = 36 + 21 − 46 = 11。

表を使って次のことがわかる:「この結果からはカメの方が速いとはいえないし、かといってウサギの方が有意に速いともいえない」。

使用方法

標本数が多い場合には正規分布による近似:

z = mU / σU

が使える(ここでzは標準正規分布に従うかどうかを考え、その有意性は正規分布表で確認できる)。帰無仮説が正しいとすればmUとσUはUの平均および標準偏差であり、次の式で与えられる:

mU = n1n2 / 2


U 検定は独立な標本に対するスチューデントのt検定と同様の状況で用いられ、どちらを用いるのがよいかが問題になる。コンピュータが簡単に使えなかった頃は計算の手間がかからないことから一般にU検定が推奨された。現在でも順序データ(初めから順位として表現されているデータ)を用いる場合にはU検定が推奨される。また少数の外れ値のために偽の有意な結果が出ることは、t検定に比べるとはるかに少ない。

一方、U検定を2標本の分布が大きく異なる場合に用いるのは誤りである。U検定は2標本が共通の分布に基づくかどうかを検定するものであって、平均は同じだが分散は異なるような分布に基づく場合には偽の有意な結果が出ることもある(モンテカルロ法を用いて示されている)。

関連項目