ヒストグラム
ヒストグラム(英: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表[1]、度数分布図、柱状グラフともいう。
また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
目次 |
[編集] 語源
Histogram(ヒストグラム)は、ギリシャ語で「すべてのものを直立にする」(帆船のマスト、織機のバー、ないしはヒストグラムの縦棒など)という意味を持つ histos(ヒストス)と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ gramma(グラマ)を合わせたものである。この用語は、イギリスの統計学者カール・ピアソンによって1895年に創案された[2]。
[編集] 数学的定義
より一般化した数学的な意味では、ヒストグラムは、各々が互いに素であるカテゴリ[3]に分類される、観察結果の数を計算する関数miである一方、ヒストグラムのグラフは単にヒストグラムを表現する1つの方法に過ぎない。ゆえに、すべての観察結果の数nとすべてのビンの数k、ヒストグラムmi が与えられたとき、これらには以下の式の関係が成り立つ。
[編集] 累積ヒストグラム
累積ヒストグラム(英: cumulative histogram)は、特定のビンまでのすべてのビンに含まれる観察結果の累積数を計算する関数である。すなわち、累積ヒストグラムMi はヒストグラムmj を用いて以下の式のように定義される。
[編集] ビンの数と幅
最良のビンの数というものは存在せず、またビンの大きさが違えば違ったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先は、さまざまなビンの幅というのは適切である可能性があり、ゆえに実験のたびに通常、適切な幅を決定する必要がある。しかしながら、さまざまな有用な指針や経験的に得られた方法が存在する[4]。
ビンの数kは、直接的に与えられるか、示唆されるビンの幅hから以下の式で与えられる。
上式の大括弧は天井関数を示す。
- スタージェスの公式(英: Sturges' formula)[5]

- この式はデータ範囲上のビンの大きさに暗黙のうちに基礎を置き、n < 30のときに不十分ながら作用する可能性がある。
- スコットの選択(英: Scott's choice)[6]

- ここで
はサンプルの標準偏差である。 - 平方根選択(英: Square-root choice)

- サンプル中のデータポイントに平方根をとるものである[7]。
- フリードマン=ダイアコニスの選択(英: Freedman–Diaconis' choice)[8]

- IQRで示される四分位範囲に基づく。
- L2危険関数推定の最小化に基づく選択[9]

- ここで
と
は、平均および偏りであり、ビンの幅に関するヒストグラムの平方偏差を
とし、
かつ
を意味する。
[編集] 具体例
ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[10]。
| 日 | 閲覧回数 | 日 | 閲覧回数 |
|---|---|---|---|
| 1 | 78 | 16 | 625 |
| 2 | 126 | 17 | 606 |
| 3 | 156 | 18 | 483 |
| 4 | 231 | 19 | 377 |
| 5 | 215 | 20 | 370 |
| 6 | 304 | 21 | 587 |
| 7 | 484 | 22 | 667 |
| 8 | 544 | 23 | 643 |
| 9 | 566 | 24 | 756 |
| 10 | 545 | 25 | 505 |
| 11 | 478 | 26 | 436 |
| 12 | 258 | 27 | 399 |
| 13 | 225 | 28 | 611 |
| 14 | 373 | 29 | 679 |
| 15 | 620 | 30 | 575 |
| 31 | 565 |
[表の見方]11の欄が478となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が478回であったことを意味する。
これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を8、幅を100とした。
| 閲覧回数 | その回数を記録した日数 |
|---|---|
| 0 - 99 | 1 |
| 100 - 199 | 2 |
| 200 - 299 | 4 |
| 300 - 399 | 5 |
| 400 - 499 | 4 |
| 500 - 599 | 7 |
| 600 - 699 | 7 |
| 700 - 799 | 1 |
[表の見方]400 - 499の欄が4となっているのは、1日の記事「ヒストグラム」の閲覧回数が400回から499回であった日が2013年1月に4日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
[編集] 脚注
- ^ a b 文部省編 『学術用語集 数学編』 大日本図書、1954年。ISBN 4-477-00170-3。
- ^ M. Eileen Magnello (December 1856). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology(英語) 1. ISSN 1177–1380.
- ^ ビンbinsの名で知られる。ヒストグラムのグラフの柱(棒)のこと。
- ^ e.g. § 5.6 "Density Estimation", W. N. Venables and B. D. Ripley, Modern Applied Statistics with S, Springer, 4th edition
- ^ Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66.
- ^ Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
- ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
- ^ フリードマン=ダイアコニスの法則の出典はFreedman, David; Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868.
- ^ Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758.
- ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。





はサンプルの


と
は、平均および偏りであり、ビンの幅に関するヒストグラムの
とし、
かつ
を意味する。