標本 (統計学)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

標本(ひょうほん、sample)とは、母集団の部分集合のこと。この母集団から部分集合を対応させる規則(可測関数)を標本抽出と呼ぶ、


母集団を完全に調査するのは不可能な場合、標本から母集団の特性を推定する必要がある。この標本抽出には作為抽出法無作為抽出法の2つの抽出方法があり、統計学では無作為抽出法だけを議論する。この抽出法では、母集団のどの要素も等しい確率で標本に選ばれることが必要である。

また統計学的推定(標本から母集団の性質を推定する)を行うには、各標本に対し、それが選抜される確率を知る必要がある。このために様々な標本抽出法が開発されており、例えば異なる標本が選抜される確率がすべて同じならば、その抽出法は単純ランダム(無作為)抽出という。

母集団を表現する数値を母数というのに対し、標本を表現する数値を統計量という。統計量は標本から算出される数値である。また統計量で特に母数を推定するために用いられるものを推定量という。

形式的定義[編集]

母集団分布を F とするとき、母集団から抽出された(無作為標本 (random sample) とは分布 F に従う独立同分布確率変数x1, x2, ... のことである。確率変数列の長さを標本のサイズという。とりうる標本の全体が成す集合 Ω, 確率を定めうる集合の全体 M (⊂ 2^Ω), 分布を表す確率測度 P からなる確率空間 (Ω, M, P) を標本空間という。

例えば母集団の分布 F が母平均 E[X] = m, 母分散 V[X] = σ2 を持つならば、標本 x1, x2, ... は i を任意の番号として平均 E[xi] = m, 分散 V[xi] = σ2 を満たす。

標本から適当な操作を行って新たに作り出される確率変数を統計量と呼ぶ。統計量は(同じ量でも)標本の採り方に依存して定まり、一般に母集団の分布とは異なる分布に従う。統計量の従う分布を標本分布と呼ぶ。

例えば標本 x = (x1, x2, ..., xn) に対し、その平均

\bar{\mathbf{x}} := \frac{x_1+x_2+\cdots+x_n}{n}

を取る操作を考えるとき、x の標本 x の取り方をさまざまに考えるものとして得られる確率変数は統計量である。この統計量は標本平均と呼ばれ、X などで表す。母集団の分布 F が母平均 E[X] = m, 母分散 V[X] = σ2 を持つならば、標本平均 X の従う標本分布について、平均 E[X] = m, 分散 V[X] = σ2/n を得る。