アンスコムの例
アンスコムの例(アンスコムのれい、Anscombe's quartet)あるいはアンスコムの数値例(アンスコムのすうちれい)とは、回帰分析において、散布図はそれぞれ異なるのに回帰直線やその他の統計量が同じになってしまう現象について、統計学者のフランク・アンスコムが1973年に紹介した例である。回帰分析をする前に散布図を確認し傾向を把握することの重要性、そして外れ値が統計量に与える影響の大きさを示している[1]。
概要
[編集]アンスコムの例は右のグラフに示された4つのデータセットからなる。4つ全てについて以下が成り立つ。
統計量 | 値 |
---|---|
x の平均 | 9 (正確に一致) |
x の標本分散 | 11 (正確に一致) |
y の平均 | 7.50 (小数第2位まで一致) |
y の標本分散 | 4.122 or 4.127 (小数第3位まで一致) |
x と y の相関係数 | 0.816 (小数第3位まで一致) |
回帰直線 | y = 3.00 + 0.500x (それぞれ小数第2位、小数第3位まで一致) |
第一の散布図(左上)は、両変数が相関し正規性の仮定にも従う単純な線形関係があるように見える。一方二番目のグラフ(右上)では、二変数の間に確かに相関関係があるのが認められるが、それは線形関係ではない。従ってピアソンの積率相関係数を用いるのは不適当である(より一般的な回帰、そしてそれに関しての決定係数を用いるのがより適当だろう)。3番目のグラフ(左下)では、分布は線形であるが、回帰直線はその分布と異なっている。その違いは外れ値の存在に起因している。この外れ値の影響で回帰直線が変わり、相関係数は1から0.816に下がってしまっている(この場合はロバスト回帰が必要となる)。最後の4番目の例は、本来線形関係にない二変数でも、外れ値が一つあれば高い相関係数が算出されてしまうことを示した例である。
この例は現在でも、データセットをある特定の関係に当てはめて分析する前に図を用いて可視化するのが重要であること、そしてデータセットの実際を表現するには基本統計量だけでは不十分であることを示す例としてしばしば使われている[2][3][4][5][6]。
実際のデータセットは以下の通りである。なお、x の値は最初の3つのデータセットでは全て等しくなっている[1]。
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
近年では、この例のような同一の統計量と異なる見た目をもつデータセットを作出する方法が開発されている[7]。
脚注
[編集]- ^ a b Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. American Statistician 27 (1): 17–21. JSTOR 2682899.
- ^ Elert, Glenn. “Linear Regression”. The Physics Hypertextbook. 2015年1月8日閲覧。
- ^ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media, Inc.. pp. 65–66. ISBN 0-596-80235-8
- ^ Chatterjee, Samprit; Hadi, Ali S. (2006). Regression analysis by example. John Wiley and Sons. p. 91. ISBN 0-471-74696-7
- ^ Saville, David J.; Wood, Graham R. (1991). Statistical methods: the geometric approach. Springer. p. 418. ISBN 0-387-97517-9
- ^ Tufte, Edward R. (2001). The Visual Display of Quantitative Information (2nd ed.). Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
- ^ Chatterjee, Sangit; Firat, Aykut (2007). “Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset”. American Statistician 61 (3): 248–254. doi:10.1198/000313007X220057.