「信頼区間」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
記事間のリンクを追加「確率」
タグ: モバイル編集 モバイルウェブ編集 新規参加者タスク
m編集の要約なし
2行目: 2行目:
'''信頼区間'''(しんらいくかん、{{Lang-en-short|Confidence interval, CI}})とは、[[統計学]]で[[母集団]]の真の値([[母平均]]等)が含まれることが、かなり確信 (confident) できる数値範囲のことである<ref>{{Cite web
'''信頼区間'''(しんらいくかん、{{Lang-en-short|Confidence interval, CI}})とは、[[統計学]]で[[母集団]]の真の値([[母平均]]等)が含まれることが、かなり確信 (confident) できる数値範囲のことである<ref>{{Cite web
|url=https://www.iryoutoukei.com/2017/07/18/%E7%94%A8%E8%AA%9E%E9%9B%86/
|url=https://www.iryoutoukei.com/2017/07/18/%E7%94%A8%E8%AA%9E%E9%9B%86/
|title=役に立つ医療統計学/用語集
|title=役に立つ医療統計学/用語集 |accessdate=2020-07-02}}</ref>。
例えば95%CIとは、繰り返し信頼区間を求めたときに95%の[[割合]]でこの範囲に真値が存在することを意味する<ref>{{Cite web|title=19-3. 95%信頼区間のもつ意味 {{!}} 統計学の時間 {{!}} 統計WEB|url=https://bellcurve.jp/statistics/course/8891.html|accessdate=2021-05-16|language=ja}}</ref>。
|accessdate=2020-07-02
真の値は未測定であっても[[確率変数]]ではなく、特定の区間に含まれるか含まれないかは確定している。
}}</ref>。例えば95%CIとは、繰り返し信頼区間を求めたときに95%の[[確率]]でこの範囲に真値が存在することを意味する<ref>{{Cite web|title=19-3. 95%信頼区間のもつ意味 {{!}} 統計学の時間 {{!}} 統計WEB|url=https://bellcurve.jp/statistics/course/8891.html|accessdate=2021-05-16|language=ja}}</ref>。


数学的には、[[母数空間]] ''Θ'' 上の関数 ''g'' : ''Θ'' → [[実数|'''R''']] が[[母数]] ''θ'' ∈ ''Θ'' でとる値 ''g''(''θ'') を統計的に推定するために用いられる区間をいう。実数 0 < ''α'' < 1 と(観測できない)[[母数]] ''θ'' により定まる[[確率分布]] ''P'' = ''P{{sub|θ}}'' をもつ[[母集団]]からの[[標本 (統計学)|標本]] ''X''{{sub|1}}, …, ''X{{sub|n}}'' に関する[[統計量]] ''a'', ''b'' が不等式
数学的には、[[母数空間]] ''Θ'' 上の関数 ''g'' : ''Θ'' → [[実数|'''R''']] が[[母数]] ''θ'' ∈ ''Θ'' でとる値 ''g''(''θ'') を統計的に推定するために用いられる区間をいう。実数 0 < ''α'' < 1 と(観測できない)[[母数]] ''θ'' により定まる[[確率分布]] ''P'' = ''P{{sub|θ}}'' をもつ[[母集団]]からの[[標本 (統計学)|標本]] ''X''{{sub|1}}, …, ''X{{sub|n}}'' に関する[[統計量]] ''a'', ''b'' が不等式
10行目: 10行目:
を満たすとき、[[閉区間]] [''a'', ''b''] を ''g''(''θ'') の '''100(1 &minus; ''&alpha;'')% 信頼区間'''という。値 1 &minus; ''α''(または 100(1 &minus; ''α'')%)は、'''信頼水準'''({{lang-en-short|confidence level}})または'''信頼係数'''({{lang-en-short|confidence coefficient}})と呼ばれ、慣習的には95%や99%(つまり ''α'' = 0.05, 0.01)などの数値を用いる。これを
を満たすとき、[[閉区間]] [''a'', ''b''] を ''g''(''θ'') の '''100(1 &minus; ''&alpha;'')% 信頼区間'''という。値 1 &minus; ''α''(または 100(1 &minus; ''α'')%)は、'''信頼水準'''({{lang-en-short|confidence level}})または'''信頼係数'''({{lang-en-short|confidence coefficient}})と呼ばれ、慣習的には95%や99%(つまり ''α'' = 0.05, 0.01)などの数値を用いる。これを
:○% CI [''a'', ''b'']
:○% CI [''a'', ''b'']
と表記することもある。<!--
と表記することもある。
<!--

言葉足らずで意味が取れないので、とりあえずコメントアウト。
言葉足らずで意味が取れないので、とりあえずコメントアウト。
信頼区間は普通、標本から計算された統計量とともに与えられる。-->
信頼区間は普通、標本から計算された統計量とともに与えられる。-->
17行目: 17行目:
例えば「信頼水準95%で、投票者の35%から45%がA候補を支持している」といったとき、95%というのが信頼水準で、35%から45%というのが信頼区間、''g''(''θ'') に当たるのはA候補の支持率である。
例えば「信頼水準95%で、投票者の35%から45%がA候補を支持している」といったとき、95%というのが信頼水準で、35%から45%というのが信頼区間、''g''(''θ'') に当たるのはA候補の支持率である。


2019年には科学者800人超が『''[[ネイチャー|Nature]]''』に署名を掲載し、誤って使われていることも多い「[[有意|統計的有意性]]」を使うのをやめて信頼区間を互換区間(compatible interval 調和区間、適合区間、非矛盾区間)という言葉に言い換えて使用すべきだとされた<ref name="Nature800">{{Cite web |author=井上輝一 |date=2019-3-26 |url=https://www.itmedia.co.jp/news/articles/1903/26/news112.html |title=「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿 |publisher=ITmedia |accessdate=2019-05-21}}</ref>。
2019年には科学者800人超が『''[[ネイチャー|Nature]]''』に署名を掲載し、誤って使われていることも多い「[[有意|統計的有意性]]」を使うのをやめて信頼区間を互換区間(compatible interval 調和区間、適合区間、非矛盾区間)という言葉に言い換えて使用すべきだとされた<ref name="Nature800">{{Cite web |author=井上輝一 |date=2019-3-26 |url=https://www.itmedia.co.jp/news/articles/1903/26/news112.html |title=「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿 |publisher=ITmedia |accessdate=2019-05-21}}</ref> <ref>{{Cite journal |author=Amrhein V |authorlink= |date= |year=2019 |month= |title=Scientists rise up against statistical significance |journal=Nature |volume=567 |issue=7748 |pages=305-7 |publisher= |location= |issn= |doi=10.1038/d41586-019-00857-9 |naid= |pmid=30894741 |id= |url= |format= |accessdate= |quote= }}</ref>。


== 解釈 ==
== 解釈 ==

2022年3月24日 (木) 05:34時点における版

信頼区間(しんらいくかん、: Confidence interval, CI)とは、統計学母集団の真の値(母平均等)が含まれることが、かなり確信 (confident) できる数値範囲のことである[1]。 例えば95%CIとは、繰り返し信頼区間を求めたときに95%の割合でこの範囲に真の値が存在することを意味する[2]。 真の値は未測定であっても確率変数ではなく、特定の区間に含まれるか含まれないかは確定している。

数学的には、母数空間 Θ 上の関数 g : ΘR母数 θΘ でとる値 g(θ) を統計的に推定するために用いられる区間をいう。実数 0 < α < 1 と(観測できない)母数 θ により定まる確率分布 P = Pθ をもつ母集団からの標本 X1, …, Xn に関する統計量 a, b が不等式

を満たすとき、閉区間 [a, b] を g(θ) の 100(1 − α)% 信頼区間という。値 1 − α(または 100(1 − α)%)は、信頼水準: confidence level)または信頼係数: confidence coefficient)と呼ばれ、慣習的には95%や99%(つまり α = 0.05, 0.01)などの数値を用いる。これを

○% CI [a, b]

と表記することもある。

例えば「信頼水準95%で、投票者の35%から45%がA候補を支持している」といったとき、95%というのが信頼水準で、35%から45%というのが信頼区間、g(θ) に当たるのはA候補の支持率である。

2019年には科学者800人超が『Nature』に署名を掲載し、誤って使われていることも多い「統計的有意性」を使うのをやめて信頼区間を互換区間(compatible interval 調和区間、適合区間、非矛盾区間)という言葉に言い換えて使用すべきだとされた[3] [4]

解釈

95%信頼区間の例。50の信頼区間のうち3つには母数 μ が含まれていない。

上の言い方は「候補Aの支持率が35%から45%である確率は95%である」 というふうにとられやすいが、これは(少なくとも従来の統計学の主流的考え方としては)誤解である。

別の例として、観測値から海王星の質量を推定する場合を以下に記す。

1.「信頼水準90%で、海王星の質量は a から b の間である」

とは言えるが、観測から得られた値 ab に基づいて

2.「海王星の質量が a から b の間に入る確率は90%である」

と言うことはできない。質量はあくまで定数であって、誤差が生じるのは観測による、つまり ab が誤差を含む統計量だからである。従来の統計学(確率を頻度として定義する頻度主義)の考え方では海王星の例(1)を言い直せば、

1'.「同じ測定を10回行えば、確率的に9回程度の頻度で『海王星の質量は a から b の間である』という測定結果が得られる」

ということになる。

ただし、確率を信頼の度合いとして定義するベイズ推計学の考え方では、2のような言い方は必ずしも誤りではない。この場合、普通用いられる考え方はベイズ確信区間Bayesian credible interval)である。これはまず θ の値として予想される事前確率分布から出発して、次に観測データが与えられた条件での θ の条件付確率分布を求め、これを事後確率分布として“信頼”区間の表現に用いる方法である。

具体例

X1, …, Xn を、平均 μ分散 σ2 > 0正規分布に従う母集団から抽出した独立な標本とする。そこで標本平均不偏分散をそれぞれ

とおけば

は自由度 n − 1 のt分布に従う。 ここで T が従う分布は(観測できない)母数 θ = (μ, σ2) にはよらないことに注意。

tn−1(α) をこの分布の上側100α%点とすれば

となる。したがって

が成り立ち、平均 g(θ) = μ の 100(1 − α)% 信頼区間

が得られる。

出典

  1. ^ 役に立つ医療統計学/用語集”. 2020年7月2日閲覧。
  2. ^ 19-3. 95%信頼区間のもつ意味 | 統計学の時間 | 統計WEB”. 2021年5月16日閲覧。
  3. ^ 井上輝一 (2019年3月26日). “「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿”. ITmedia. 2019年5月21日閲覧。
  4. ^ Amrhein V (2019). “Scientists rise up against statistical significance”. Nature 567 (7748): 305-7. doi:10.1038/d41586-019-00857-9. PMID 30894741. 

関連項目