ヒストグラム

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
ヒストグラムの例

ヒストグラム: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学数学画像処理等で用いられる。柱図表[1]度数分布柱状グラフともいう。

また、工業分野では、パレート図チェックシート管理図特性要因図層別法散布図と並んで、品質管理のためのQC七つ道具として知られている。

語源[編集]

Histogram(ヒストグラム)は、ギリシャ語で「すべてのものを直立にする」(帆船マスト織機のバー、ないしはヒストグラムの縦棒など)という意味を持つ histos(ヒストス)と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ gramma(グラマ)を合わせたものである。この用語は、イギリス統計学者カール・ピアソンによって1895年に創案された[2]

数学的定義[編集]

同じデータから作られた一般的なヒストグラム(左)と累積ヒストグラム。このデータは平均0、標準偏差1の正規分布から無作為に選んだ10,000点のサンプルを示している。

より一般化した数学的な意味では、ヒストグラムは、各々が互いに素であるカテゴリ[3]に分類される、観察結果の数を計算する関数miである一方、ヒストグラムのグラフは単にヒストグラムを表現する1つの方法に過ぎない。ゆえに、すべての観察結果の数nとすべてのビンの数k、ヒストグラムmi が与えられたとき、これらには以下の式の関係が成り立つ。

n = \sum_{i=1}^k{m_i}.

累積ヒストグラム[編集]

累積ヒストグラム(: cumulative histogram)は、特定のビンまでのすべてのビンに含まれる観察結果の累積数を計算する関数である。すなわち、累積ヒストグラムMi はヒストグラムmj を用いて以下の式のように定義される。

M_i = \sum_{j=1}^i{m_j}.

ビンの数と幅[編集]

最良のビンの数というものは存在せず、またビンの大きさが違えば違ったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先は、さまざまなビンの幅(bin width)というのは適切である可能性があり、ゆえに実験のたびに通常、適切な幅を決定する必要がある。しかしながら、さまざまな有用な指針や経験的に得られた方法が存在する[4]

ビンの幅hは、直接的に与えられるか、示唆されるビンの数kから以下の式で与えられる。

h = \left \lceil \frac{\max x - \min x}{k} \right \rceil.

上式の大括弧は天井関数を示す。

スタージェスの公式(: Sturges' formula[5]
k = \lceil \log_2 n + 1 \rceil, \,
この式はデータ範囲上のビンの大きさに暗黙のうちに基礎を置き、n < 30のときに不十分ながら作用する可能性がある。
スコットの選択(: Scott's choice[6]
h = \frac{3.5 \sigma}{n^{1/3}},
ここで \sigma はサンプルの標準偏差である。
平方根選択(: Square-root choice
k = \sqrt{n}, \,
サンプル中のデータポイントに平方根をとるものである[7]
フリードマン=ダイアコニスの選択(: Freedman–Diaconis' choice[8]
h = 2 \frac{\operatorname{IQR}(x)}{n^{1/3}},
IQRで示される四分位範囲英語版に基づく。
L2危険関数推定の最小化に基づく選択[9]
 \underset{h}{\operatorname{arg\,min}} \frac{ 2 \bar{m} - v } {h^2}
ここで \textstyle \bar{m}\textstyle v は、平均および偏りであり、ビンの幅に関するヒストグラムの平方偏差\textstyle h とし、\textstyle \bar{m}=\frac{1}{k} \sum_{i=1}^{k}  m_i かつ \textstyle v= \frac{1}{k} \sum_{i=1}^{k} (m_i - \bar{m})^2 を意味する。

種類[編集]

次の4種類に分けられる。

  1. U字型分布
  2. 均一分布
  3. 山型分布
  4. 歪曲分布 次の2種類に分類できる。
    1. 左歪曲分布
    2. 右歪曲分布

以下の項目を例を用いて説明する。

U字型分布[編集]

最初の区間から徐々にに下がっていき、中間(ほとんどの場合)で最小となり、再びあがっていく。このようなヒストグラムをU字型分布(U-shaped distribution)という。 ビンの数を10、幅を10とする。

点数 この点数をとった学生の数
0.5-11.5 10
10.5-21.5 8
21.5-31.5 6
31.5-41.5 4
41.5-51.5 2
51.5-61.5 0
61.5-71.5 2
71.5-81.5 4
81.5-91.5 6
91.5-101.5 8


均一分布[編集]

すべての区間の数が等しいとき、または、近いとき(だいたい差が2以下)、このヒストグラムを均一分布(uniform distribution)という。一様分布ともいう。次の2種類に分類できる。

  1. 連続一様分布 (Continuous uniform distribution)
  2. 離散一様分布 (Discrete uniform distibution)

山型分布[編集]

中央区間が最大になっているヒストグラムを山型分布(mound-shaped distribution)という。

歪曲分布[編集]

スケートボード場のような形の分布を歪曲分布(skewed distribution)という。から下がっていくのを歪曲分布(right-skewed distribution)、へあがっていくのを歪曲分布(left-skewed sidtribution)という。

具体例[編集]

ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[10]

閲覧回数 閲覧回数
1 78 16 625
2 126 17 606
3 156 18 483
4 231 19 377
5 215 20 370
6 304 21 587
7 484 22 667
8 544 23 643
9 566 24 756
10 545 25 505
11 478 26 436
12 258 27 399
13 225 28 611
14 373 29 679
15 620 30 575
31 565

[表の見方]11の欄が478となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が478回であったことを意味する。

図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム

これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を8、幅を100とした。

閲覧回数 その回数を記録した日数
0 - 99 1
100 - 199 2
200 - 299 4
300 - 399 5
400 - 499 4
500 - 599 7
600 - 699 7
700 - 799 1

[表の見方]400 - 499の欄が4となっているのは、1日の記事「ヒストグラム」の閲覧回数が400回から499回であった日が2013年1月に4日あったことを意味する。

したがって、これをヒストグラムにすると、図1のようになる。

脚注[編集]

[ヘルプ]
  1. ^ a b 文部省編 『学術用語集 数学編』 大日本図書1954年ISBN 4-477-00170-3
  2. ^ M. Eileen Magnello (December 1856). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology(英語) 1. ISSN 1177–1380. http://www.rutherfordjournal.org/article010107.html. 
  3. ^ ビンbinsの名で知られる。ヒストグラムのグラフの)のこと。
  4. ^ e.g. § 5.6 "Density Estimation", W. N. Venables and B. D. Ripley, Modern Applied Statistics with S, Springer, 4th edition
  5. ^ Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66. http://www.jstor.org/stable/2965501. 
  6. ^ Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605. 
  7. ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
  8. ^ フリードマン=ダイアコニスの法則の出典はFreedman, David; Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868. 
  9. ^ Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758. http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503. 
  10. ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。

関連項目[編集]