分位数

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (quantile) は、統計の代表値の1種である。

実数 q,\ 0 \le q \le 1 に対し、q 分位数 (q-quantile) は、分布を q : 1 - q\, に分割する値である。

ある種の正の整数 m に対し、分布を m 等分する m - 1 個の値、つまり、i = 1, \cdots, m - 1 に対する i / m 分位数を、m 分位数(ただし m漢数字)という。i = 1, \cdots, m - 1 番目の m 分位数をi m 分位数といい、また、m 等分された分布の k = 1, \cdots, m 番目の部分を、k m 分位、または単にk 分位という。

定義[編集]

変量統計における分位数[編集]

n 個のデータ x に対する q 分位数 Q_q は、昇順にソートしたデータを x_1 \le x_2 \le \dots \le x_n とすると、

Q_q = x(1 - q + q n)\,
x(t) = \begin{cases} 
  x_t,  & \mbox{if } t \in \mathbb{N} \\
  (\lceil t \rceil - t) x_{\lfloor t \rfloor} + (t - \lfloor t \rfloor) x_{\lceil t \rceil}, & \mbox{if } t \notin \mathbb{N}
\end{cases}

と定義される。ここで、\lfloor \cdot \rfloor床関数\lceil \cdot \rceil天井関数\mathbb{N}自然数の集合である。

関数 x(t),\ 1 \le t \le n は、数列 x_{1, \cdots, n} の線形補間による実数関数への拡張である。関数 x(\cdot) の引数 1 - q + q n は、範囲 [1, n]q : 1 - q\,内分している。

確率分布の分位数[編集]

1次元確率分布 \varphi(x) に対する q 分位数 Q_q は、

\int_{-\infty}^{Q_q} \varphi(x)\, dx \ge q,\ \int_{Q_q}^\infty \varphi(x)\, dx \ge q

を満たす値として定義される。この式は、累積密度関数 \Phi(x) または確率 P(X) を使って、

\int_{-\infty}^{Q_q} d\Phi(x)\ \ge q,\ \int_{Q_q}^\infty d\Phi(x)\ \ge q または
P(X \le Q_q) \ge q,\ P(X \ge Q_q) \ge q

とも表せる。

特別な分位数[編集]

いくつかの q に対する q 分位数には、特別な名称がある。

中央値[編集]

1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。

四分位数[編集]

q / 4 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (quartile, hinge) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいう。

単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布のばらつきを表すのに使われる。

第1・第3四分位数の差 Q_{3 / 4} - Q_{1 / 4}\, は、四分位数範囲 (IQR) といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。

IQR / 2 を四分位数偏差、IQR / IQR_{N(0, 1)} \approx IQR \times 0.7413 を正規四分位数範囲といい、IQRの代わりに使うことがある。ここで、IQR_{N(0, 1)} \approx 1.3490 は、標準正規分布のIQRである。正規分布の正規四分位数範囲は、標準偏差に等しい。なお一般には、係数0.7413が近似値に使われることが多い。

ヒンジ[編集]

四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ(第2ヒンジは中央値)と呼ぶ。

ヒンジは、(厳密に計算した)四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる。

三分位数・五分位数・十分位数[編集]

q / 3 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。

q / 5 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。

q / 10 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。

パーセンタイル[編集]

q / 100 分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (percentile) という。

1 - q / 100 分位数を上側 q パーセント点という。これと対比するときには、q / 100 分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、1 / 2 + q / 200 分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。

最大値・最小値[編集]

0分位数は最小値、1分位数は最大値である。

五数要約[編集]

分布の特徴を最大値、最小値、中央値、上側・下側ヒンジの5つの値、つまり、0, 約0.25, 0.5, 約0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。