箱ひげ図

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

箱ひげ図(はこひげず、箱髭図、box plot)とは、ばらつきのあるデータをわかりやすく表現するための統計学的グラフである。様々な分野で利用されるが、特に品質管理で盛んに用いられる。細長いと、その両側に出たひげで表現されることからこの名がある。

一般的には(ジョン・テューキーの方式)、重要な5種の要約統計量である、最小値、第1四分位点中央値、第3四分位点と最大値を表現する。母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散歪度の程度、また外れ値(これは後述のように箱ひげ図の方式により異なる)を知ることもできる。

以下に箱ひげ図の具体例を示す:

                            +-----+-+       
  *           o     |-------|   + | |---|
                            +-----+-+    
                                         
+---+---+---+---+---+---+---+---+---+---+   number line
0   1   2   3   4   5   6   7   8   9  10

このデータセット(値は図から読み取れる概略値とする)から、次のことが分かる:

  • 最小値(min) = 5。
  • 第1四分位点(Q1) = 7。
  • 中央値(第2四分位点、Med) = 8.5。
  • 第3四分位点(Q3) = 9。
  • 最大値(max) = 10。
  • 平均値 = 8。
  • IQR(interquartile range) = Q3-Q1 = 2
  • 3.5という値は"軽度の"外れ値、つまりQ1よりも 1.5×IQR から 3×IQR だけ下にある。
  • 0.5という値は"極端な"外れ値、つまりQ1よりも 3×IQR 以上下にある。
  • 外れ値以外の最小値は5。
  • データは左に歪んでいる(負の歪度)。

横線(ひげ)は箱のどちらか(または両方)の端から、最大で箱の長さ(第1-第3四分位点間)の1.5倍しかない。ひげはすべての観測値(ただし箱から箱の長さの1.5倍よりも離れている値、つまり外れ値を除く)をつないだものである。"軽度"および"極端"外れ値の境は、箱の長さの2倍の点である。

なお、いろいろな統計パッケージで使われている箱ひげ図の中には、違う方式(例えば5%点と95%点をひげの末端にする)を採用したものもある。このような方式は、中央値を中心とする分布を強調するテューキーの方式と異なり、またデータサイズが10を越えただけで(分布の形によらず)外れ値を出してしまう傾向がある。

関連項目[編集]