平均

出典: フリー百科事典『ウィキペディア(Wikipedia)』

平均(へいきん)とは、観測されるデータから、その散らばり具合を "平らに均す(ならす)" 事によって得られる、統計的な指標である。平均値ともいう。

例えば A, B, C 三人の体重がそれぞれ 55 kg, 60 kg, 80 kg であったとすると、合計は 195 kg であり、これは 65 kg の人が三人いた場合と同じである。 このようなとき、A, B, C の体重の平均は 65 kg であるといわれる。 これは相加平均(後述)の一例であるが、特に断らずに平均という場合の多くは相加平均を指している。母集団ではなく標本から計算しているという意味で、標本平均と呼ぶこともある。

目次

[編集] 相加、相乗、調和平均

[編集] 定義

n 個のデータx1, ...,xnに対し、x1, ...,xn相加平均(そうかへいきん)、相乗平均(そうじょうへいきん)、調和平均(ちょうわへいきん)を、それぞれ

\frac{x_1+\cdots+x_n}{n}\sqrt[n]{x_1\cdots{}x_n}\frac{n}{\frac{1}{x_1}+\cdots+\frac{1}{x_n}}

により定義する。

ただし、相乗平均は正値のデータに対してのみ定義される。また調和平均の場合xi=0 (1≦i≦n)を満たすiが存在する場合には定義されないが、相加平均の場合はデータの値がどんな実数であっても定義される。 相加平均、相乗平均をそれぞれ算術平均(さんじゅつへいきん)、幾何平均(きかへいきん)とも言う。 単に平均といったら相加平均を指す。

恒等式

\frac{n}{\frac{1}{x_1}+\cdots+\frac{1}{x_n}}=\left(\frac{x_1{}^{-1}+\cdots+x_n{}^{-1}}{n}\right)^{-1}

が成立するので、調和平均はx1, ...,xnの "逆数の相加平均" の逆数であると解釈できる。

調和平均は、速さの平均や並列接続された電気抵抗の抵抗値などを考える場合に用いる(直列回路と並列回路)。

[編集] 関係式

[編集] 対数を使った関係式

相乗平均の対数は、対数の相加平均に等しい。 すなわち、

\log \sqrt[n]{x_1\cdots{}x_n} = \frac{\log{}x_1+\cdots+\log{}x_n}{n}

が成立する。

[編集] 相加・相乗・調和平均の不等式

n 個のデータが全て正の時、次のような大小関係が成り立つ。

相加平均 ≥ 相乗平均 ≥ 調和平均
\frac{x_1+\cdots+x_n}{n} \ge \sqrt[n]{x_1\cdots{}x_n} \ge \frac{n}{\frac{1}{x_1}+\cdots\frac{1}{x_n}}

等号成立条件は、

x1=…=xn

である。

右側の不等式は、「対数を使った関係式」にlogの凸性(ジェンセンの不等式)を適応すれば証明できる。 左側の不等式は、調和平均が逆数の相加平均の逆数という事実を右側の不等式に適応すれば証明できる。

右側の不等式に関しては、数学的帰納法を使った別証明も知られているが、 この場合n = 2mと書ける場合に対してのみまず証明して、それから一般のnに対して証明するというトリッキーな方法を使う。


[編集] その他

データ数nが2のときの相加平均、相乗平均、調和平均をそれぞれAGHとすると、

A = \frac {{x_1} + {x_2}} {2},G = \sqrt {{x_1} \cdot {x_2}}H = \frac {{2} {x_1} {x_2}} {{x_1} + {x_2}}.

なので、

G = \sqrt {{A} {H}}

が成立する。すなわち、もとのデータの相乗平均は相加平均と調和平均の相乗平均に等しくなる。

[編集] 様々な平均

[編集] m乗平均と一般化平均

n 個のデータx_1,\ldots,x_nm乗平均一般化平均をそれぞれ、

\frac{x_1{}^m+\cdots+x_n{}^m}{n} \sqrt[m]{\frac{x_1{}^m+\cdots+x_n{}^m}{n}}

によって定義する。

一般化平均は、相加・相乗・調和の三つの平均概念を一般化したものになっており、 m = 1 とすれば相加平均、m = -1 で調和平均、m → 0 の極限で相乗平均になる。 一般化平均で得にm = 2の場合は、二乗平均平方根と呼ばれ、物理学や工学で様々な応用をもつ。

一般化平均は、ベクトル(x_1,\ldots,x_n)m-ノルム\sqrt[m]{n}で割ったものに一致する。

m乗平均・一般化平均の応用として、例えば統計学では分散標準偏差が それぞれm=2の場合のm乗平均・一般化平均により定義されている。(ただし、相加平均を引いた後m乗平均・一般化平均を取る)。

一般化平均はさらに一般化が可能で、可逆な関数 f により

f^{-1}\left({\frac{1}{n}\sum_{i=1}^n{f(x_i)}}\right)

という平均が定義できる。f(x) = x により相加平均が、f(x) = 1/x により調和平均が、f(x) = log(x) により相乗平均がそれぞれ表されている事が分かる。

[編集] 加重平均

観測される値それぞれに重みがある時には、単に相加平均をとるのでなく重みを考慮した平均をとるのが便利である。各データ xi に、重み wi がついているときの加重平均(重み付き平均)は

\cfrac{w_1x_1+\cdots+w_nx_n}{w_1+\cdots+w_n}

と定義される。全ての重みが等しければ、これは通常の相加平均である。

[編集] 連続分布の相加平均

観測されるデータ xt区間 [a, b] 上に連続的に分布しているとき、その相加平均は積分

\frac{1}{b-a} \int_a^b x_t\,dt

と定義される。これは離散分布の相加平均に対して、無限個の平均を算出する操作を極限により表したものである。

[編集] ベクトルの平均

ベクトル\mathbf{x}_1,\ldots,\mathbf{x}_nに対し、 \mathbf{x}_1,\ldots,\mathbf{x}_nの(相加)平均を、

\frac{\mathbf{x}_1+\cdots+\mathbf{x}_n}{n}

により定義する。 相加平均と違い、相乗平均や調和平均はベクトルの場合に一般化されない。

ベクトルの数が3の場合、\mathbf{x}_1,\mathbf{x}_2,\mathbf{x}_3の平均は、 \mathbf{x}_1,\mathbf{x}_2,\mathbf{x}_3の作る三角形の重心に一致する。 ベクトルの数が4の場合も同様で、\mathbf{x}_1,\cdots,\mathbf{x}_4の平均は、 \mathbf{x}_1,\cdots,\mathbf{x}_4の作る四面体の重心に一致する。 この事実は一般にベクトルの数がnの場合も拡張でき、\mathbf{x}_1,\cdots,\mathbf{x}_nの平均は、 \mathbf{x}_1,\cdots,\mathbf{x}_nの作るn-単体の重心に一致する。

また、後述するように、ベクトルの平均は物理学における質点の重心と関係がある。

m乗平均、一般化平均、および加重平均の概念もベクトルの場合に拡張可能で、それぞれ、

\frac{||\mathbf{x}_1||^m+\cdots+||\mathbf{x}_n||^m}{n}\sqrt[m]{\frac{||\mathbf{x}_1||^m+\cdots+||\mathbf{x}_n||^m}{n}} \frac{w_1\mathbf{x}_1+\cdots+w_n\mathbf{x}_n}{w_1+\cdots+w_n}

により定義される。ただしここで||\cdot||は、ベクトルのノルムm=2の場合、||\mathbf{x}||^2は内積\langle\mathbf{x},\mathbf{x}\rangleに一致するので、 m=2の場合のm乗平均や一般化平均が得に重要である。 たとえば物理学では速さの平均値として、m=2の場合の一般化平均を使う事がある。

ベクトルの加重平均の概念には、物理的な解釈を与える事ができる。 質点P_1,\ldots,P_nがそれぞれ位置\mathbf{x}_1,\ldots,\mathbf{x}_nにあり、 それぞれの質量がm_1,\ldots,m_nであるとき、 P_1,\ldots,P_nの重心は、加重平均

\cfrac{m_1\mathbf{x}_1+\cdots+m_n\mathbf{x}_n}{m_1+\cdots+m_n}

に一致する。

よって得にベクトルの(相加)平均は、質量1の質点達の重心に一致する。

[編集] 算術幾何平均

a0,b0を、a0 > b0を満たす2つの非負の実数とする。 a_1,a_2,\ldotsb_1,b_2,\ldots

a_{i+1}=\frac{a_i+b_i}{2}
b_{i+1}=\sqrt{a_ib_i}

により定義する。

このとき、

\lim_{i\to\infty}a_i=\lim_{i\to\infty}b_i

a0b0算術幾何平均という。

[編集] 平均を用いる際の注意

調査では、平均は代表値としてしばしば使われる。ただし、それが調査の目的に適切かどうかは検討を必要とする。

いくつか例を上げる。

仮に、ある遊園地に来るグループの人数の平均が3.2人の時には、4人のグループもかなり多いだろう。この場合に観覧車の1部屋の定員を決めるなら、平均値に近い3人にするよりも4人にする方が1グループ単位で乗せられるグループが多くなるため適切であろう。

世帯の貯蓄の事例では、一部の大金持ちの巨大な貯蓄が平均値を引き上げてしまうため、最も多い数の貯蓄額が仮に300万円だとしても平均は700万円くらいになる。従って、一般的な世帯の貯蓄について考察するのが目的ならば中央値最頻値を用いるべきである。

実験や医学では30例に満たない事例の平均から、何らかの結論を出す必要がある場合もある。この場合は、測定誤差が平均にもかなり混ざっており、統計学的な手法で平均値の精度を計算しないと誤った結論を出すおそれがある。

[編集] 関連項目