第一種過誤と第二種過誤

第一種過誤（Type I error）または偽陽性（False positive）と第二種過誤（Type II error）または偽陰性（False negative）は、統計上の過誤を表す用語である。第一種過誤をα過誤（α error）、第二種過誤をベータ過誤（β error）とも呼ぶ。なお「過誤」とは、誤差によって二項分類などの分類を間違うことを意味する。

統計的過誤とシステム的過誤

過誤は次の2種類がある^[1]。

統計的過誤（Statistical error）: 計算や計測で得られた値と真の理論上の値との誤差が、無作為で本質的に予測不可能な変動によって生じている場合^[2]。
システム的過誤（Systematic error）: 計算や計測で得られた値と真の理論上の値との誤差が、未知のソースによる無作為でない影響であり（不確かさ参照）、そのソースが特定されれば排除できる^[2]。

統計的過誤: 第一種と第二種

統計的過誤は2種類に大別される。まず、推定された状態に対応する「帰無仮説」があり、例えば、個人が病気ではないとか、被告人が無実であるとか、潜在的なログイン対象が認可されていないことなどを表す。一方で、帰無仮説と全く逆の状況に対応する「対立仮説」があり、すなわち、個人が病気にかかっているとか、被告人が有罪であるとか、ログイン対象が許可されたユーザであるといったことを表す。目標は、帰無仮説が棄却されて対立仮説が採用されるかどうかを正確に決定することである。ある種のテスト(血液検査、裁判、ログイン試み)が実施されて、データが得られる。テストの結果は、陰性かもしれない（つまり、病気でない、有罪でない、ログインが許されない）。一方、それは陽性かもしれない（つまり、病気、有罪、ログイン成功）。テストの結果と実際の状態が一致していないなら過誤が発生したことになるし、テストの結果と実際の状態が一致しているなら、判断は正しいことになる。どちらの仮説を誤って採用してしまったかによって、過誤を「第一種過誤」と「第二種過誤」に分類する。

第一種過誤

第一種過誤（α過誤、偽陽性）は、帰無仮説が実際には真であるのに棄却してしまう過誤である。換言すれば、これはテスト結果が対立仮説を支持しているように見えるために起きる過誤である。つまり、統計的に有意でないのに有意な差があると観測される場合に発生する。

偽陽性は一般に、本当は陽性でないはずなのにテスト結果が陽性となることを意味する。例えば、ある女性が妊娠していないのに検査結果で妊娠していると判定される場合などを指す。

第二種過誤

第二種過誤（β過誤、偽陰性）は、対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤である。換言すれば、統計的に有意な差があるのにそれを観測できない場合の過誤である。これは、帰無仮説を誤って採用した場合にのみ発生する。

他の分類については過誤種別拡張の提案を参照されたい。

解説

仮説検定は、2つの標本の分布の違いが無作為な偶然性で説明できるかどうかを判定する技法である。2つの分布に有意な差があると結論付ける場合、その差異が無作為な偶然性では説明できないことを十分注意して判断する必要がある。真ではない仮説を採用する可能性をなるべく小さくするよう注意を払わなければならない。一般に第一種過誤となる確率を .05 か .01 に設定する。これはつまり100例のうち5例か1例で過誤が発生することを意味する。これを「有意水準」と呼ぶ。100例のうち5例というのが十分かどうかは一概には言えないため、有意水準の選択には細心の注意が必要である。例えば、シックス・シグマの品質管理を採用する工場では標準偏差の6倍の幅（±6σ）を管理限界とする（これを外れるのは極めて珍しい）。

統計的手法の利点は無作為な標本抽出にある。つまり、2つの分布の差が治療の前後でどう変化するかを無作為抽出で追跡可能である。しかし、現実がそれほど単純でないのは明らかである。無作為標本を取り出したとき、全く同じ分布となる可能性は極めて小さい。たとえ同じ分布であったとしても、それが偶然の産物なのか、それとも常にそうなるのかは判断できない。

語源

1928年、著名な統計学者のイェジ・ネイマン（1894年 - 1981年）とエゴン・ピアソン（1895年 - 1980年）は「特定の標本が、ある個体群から無作為に選ばれたと判断できるかどうかの判定」という問題を議論した (1928/1967, p.1)。そして、David は「'無作為な'という形容詞は標本の抽出方法に対するもので、標本そのものにかかるのではない」と指摘した (1949, p.28)。

彼らは「過誤の2つの源泉」を次のように表した:

(a) 採択すべき仮説を棄却する過誤

(b) 棄却すべき仮説を採択する過誤 (1928/1967, p.31).

1930年、彼らは「過誤の2つの源泉」の概念を次のように練り直した:

「…仮説検定では次の2点を常に考慮しなければならない。(1)我々は、真の仮説を棄却してしまう可能性を必要に応じて低く抑えることができなければならない。(2)偽と思われる仮説が棄却されるような検定でなければならない。」 (1930/1967, p.100)

1933年、彼らはこれらの「問題は、仮説の真偽が確信を持って断言できるような場合には存在しない」と述べた(p.187)。彼らはまた、「対立仮説群」(p.201)から特定の仮説を棄却または採用する決定において、過誤が容易に発生するとした。

「…（そして）それらの過誤は以下の2種類に分けられる:

(I) H_o（すなわち検定対象の仮説）が真であるのに棄却する。

(II) 代替の仮説 H_i が真であるのに H_o を採択する。(1933/1967, p.187)

ネイマンとピアソンの共同執筆論文では、H_o が常に「検定対称仮説」を表す（例えば 1933/1967, p.186 参照）。添え字は "O" であってゼロではない（「オリジナル」の意）。

同じ論文(p.190)で、彼らは「2つの過誤の源泉」を第一種の過誤（errors of type I）および第二種の過誤（errors of type II）と呼んでいる^[3]。

統計学的扱い

定義

第一種過誤と第二種過誤

ネイマンとピアソンによる過誤の定義は広く採用され、第一種過誤と第二種過誤として知られている。また、分かり易さから、これらをそれぞれ偽陽性と偽陰性とも呼ぶことが多い。これらの用語は本来の定義から拡大解釈され、様々な場面で使われるようになっている。例えば、

第一種過誤（偽陽性）: 受諾（受理）されるべき帰無仮説を拒絶（却下）する過誤。例えば、無実の人物を有罪にすること。
第二種過誤（偽陰性）: 拒絶（却下）されるべき帰無仮説を受諾（受理）する過誤。例えば、真犯人を無罪にすること。

上の例は、この拡大された定義での曖昧さを示している。ここでは「無罪であること」を中心に考えているが、当然ながら「有罪であること」を中心に考えることもできる。以下の表で条件を示す。


		実際の状態
		有	無
テスト結果	陽性	状態「有」 + 結果「陽性」 = 真陽性	状態「無」 + 結果「陽性」 = 偽陽性第一種過誤
テスト結果	陰性	状態「有」 + 結果「陰性」 = 偽陰性第二種過誤	状態「無」 + 結果「陰性」 = 真陰性

妊娠検査の例を示す。


		実際の状態
		妊娠している	妊娠していない
検査結果	妊娠している	真陽性	偽陽性（妊娠しているという検査結果だが、実際には妊娠していない）第一種過誤
検査結果	妊娠していない	偽陰性（妊娠しているのに検出できなかった）第二種過誤	真陰性

ここで、検査結果が「真」とか「偽」とか言った場合、2種類の意味があることに注意されたい。実際の状態（条件）では、真 = 有（ある属性が有る）と、偽 = 無（ある属性が無い）であり、検査結果の正確度においては、真陽性/偽陽性/真陰性/偽陰性という使われ方をする。上の表ではこの混同を避けるため、状態については「有/無」で表している。

偽陽性率

偽陽性率とは、陰性の標本集団のうち、誤って陽性と判定された標本の割合である。すなわち、1 から特異度を引いた値と同じである。

{\rm {false\ positive\ rate}}={\frac {\rm {number\ of\ false\ positives}}{\rm {number\ of\ negative\ instances}}}

仮説検定では、この割合をαで表し、 $1-\alpha$ を特異度と定義する。特異度が増大すると第一種過誤となる確率が低下するが、第二種過誤となる確率が増大する^[4]。

偽陰性率

偽陰性率とは、陽性の標本集団のうち、誤って陰性と判定された標本の割合である。すなわち、1 から感度を引いた値と同じである。

{\rm {false\ negative\ rate}}={\frac {\rm {number\ of\ false\ negatives}}{\rm {number\ of\ positive\ instances}}}

仮説検定では、この割合をβで表す。

ベイズの定理

観測された陽性の結果が偽陽性（あるいは逆に真陽性）である確率はベイズの定理によって計算できる。

ベイズの定理の基本概念は、偽陽性や偽陰性の真の割合が単にその検査の正確度だけで決まるのではなく、実際に検査対象の標本群が陽性（または陰性）である割合に大きく左右されるというものである。

過誤種別拡張の提案

ネイマンとピアソンが提唱した第一種過誤（偽陽性）と第二種過誤（偽陰性）は広く採用されているが、それら以外の過誤（「第三種過誤」や「第四種過誤」）を定義しようという試みがいくつかなされてきた^[5]

これらは広く受け入れられるには至っていない。以下では、主なものを紹介する。

David

ユニヴァーシティ・カレッジ・ロンドンでネイマンやピアソンと同僚だったこともある Florence Nightingale David (1909-1993)[3] は、冗談交じりに 1947年の論文で、自身の研究結果についてネイマンとピアソンの「過誤の2種類の源泉」を三番目に拡張する可能性について触れている。

「私は、この理論の基本的考え方を説明するにあたって、私が（第三種の）過誤に陥っているという批判、標本に対して間違った検査法を選んでいるという批判を受けるのではないかと心配してきた。」 (1947, p.339)

Mosteller

1948年、Frederick Mosteller（1916年 - 2006年）^[6] は「第三種過誤」を次のように定義することを提唱した。

第一種過誤: 真である帰無仮説を棄却する
第二種過誤: 偽である帰無仮説を採択する
第三種過誤: 間違った理由で、正しく帰無仮説を棄却する (1948, p.61)

Kaiser

Henry F. Kaiser（1927年 - 1992年）は 1966年の論文で Mosteller の分類を拡張し、「第三種過誤」を棄却された仮説に基づいて間違った判断をすることを指すとした(1966, pp.162-163)。また、Kaiser はこれをγ過誤（γ errors）と呼んでいる。

Kimball

1957年、Allyn W. Kimball （オークリッジ国立研究所の統計学者）は、第一種過誤と第二種過誤に続く新たな種類の過誤を提案した。Kimball の定義した「第三種過誤」とは「間違った問題に正しい答を与えることによる過誤」である (1957, p.134)。

数学者リチャード・ハミング（1915年 - 1998年）は「間違った問題に正しい解法を与えるよりも、正しい問題に間違った解法を与える方が望ましい」と述べている。

ハーバード大学の経済学者 Howard Raiffa も「間違った問題を解く破目に陥った」経験を述べている (1968, pp.264-265).^[7]

Mitroff と Featheringham

1974年、Ian Mitroff と Tom Featheringham は Kimball の分類を拡張し、「問題の解法を考える際の最重要な要素は、その問題がまずどのように説明され、公式化されているかである」とした。

彼らは、第三種過誤を「正しい問題を解くべきときに間違った問題を解く過誤」あるいは「問題を正しく表現すべきときに間違った表現を選択する過誤」とした (1974, p.383)。

Raiffa

1969年、ハーバード大学の経済学者 Howard Raiffa は冗談として「第四種過誤の候補: 正しい問題を解くのに時間が掛かりすぎること」とした (1968, p.264)。

Marascuilo と Levin

1970年、Marascuilo と Levin は第四種過誤を提案した。これは Mosteller 的な定義であり「正しく棄却された仮説の不適切な解釈」による過誤である。彼らは、この例として「医師の病気の診断が正しいのに、その後の医薬の処方箋が間違っている場合」を挙げている (1970, p.398)。

具体例

統計的検定においては、以下の2つのトレードオフがある。

(a) 偽陽性の容認可能なレベル

(b) 偽陰性の容認可能なレベル

しきい値の設定によって、感度を変えることができる。感度を低くすれば真陽性のものを陰性と判定する危険が大きくなり、感度を高くすれば偽陽性を生む危険が大きくなる。

コンピュータ

コンピュータ関連では、「偽陽性」や「偽陰性」という言葉が様々な場面で使われている。

コンピュータセキュリティ

セキュリティ上の脆弱性は、適切なユーザーからのアクセスのみを受け付け、コンピュータのデータを安全に保つ際に考慮すべき重要な概念である（コンピュータセキュリティ参照）。Moulton (1983) では以下のよう点が強調されている（p.125）。

「認証されたユーザー」を「不正アクセス者」と分類してしまう第一種過誤（偽陽性）を防ぐ。
「不正アクセス者」を「認証されたユーザー」と分類してしまう第二種過誤（偽陰性）を防ぐ。

スパムフィルタリング: 「スパムフィルタリング」で通常の電子メールをスパムと誤って分類することを偽陽性と呼ぶ。この場合、普通の電子メールの配布が阻害される。スパムフィルタリングでは高確率で不要な電子メールをブロックできるが、偽陽性の発生を無視できる程度にまで低下させる努力は今も続いている。; 逆にスパムを検出できずにそのまま通してしまうことを偽陰性と呼ぶ。偽陰性の発生率が低いほど、スパムフィルタリングの効率が良いとされる。
マルウェア: アンチウイルスソフトウェアでは、問題のないファイルをウイルスと誤認識することを偽陽性と呼ぶ。その原因はヒューリスティックやデータベース上のウイルスシグネチャの誤りによる。同様の問題はトロイの木馬やスパイウェアの検出でも発生する。
データベース検索: データベース検索では、検索要求に対して得られる適切でない結果を偽陽性と呼ぶ。特に全文検索で発生しやすい。全文検索は格納されている全文書の全内容について、ユーザーが支持した数個の単語が含まれているものを探す。; 偽陽性の発生原因は自然言語の曖昧さにあることが多い。例えば「ホーム」という単語は「誰かの住居」という意味もあれば「あるWebサイトのトップレベルのページ」という意味もある^[8]
光学文字認識 (OCR): 一般に検出アルゴリズムは偽陽性に陥り易い。光学文字認識(OCR)ソフトウェアは "a" のように見えるドットの集まりを "a" であると認識してしまう可能性がある。
一般のセキュリティ: 偽陽性は空港でのセキュリティチェックなどでよく発生している。警報は武器が持ち込まれようとしていると判定されたときに鳴るよう設計されているが、その感度は高めに設定されているため、実際には武器ではない場合でも、鍵やバックルや小銭や携帯電話などで頻繁にひっかかるようになっている（金属探知機参照）。; この場合、真陽性（本物の武器を検出する場合）よりも偽陽性の場合が遥かに多く、陽性予測値は非常に低くなる。
生体認証: 虹彩認識、網膜スキャン、顔認識システムなどの生体認証スキャンでは、偽陰性が問題となる。この種のシステムでは、ある人物がデータベース上の既知の人物と誤って一致することがある。この場合、その人物は通行を許可される人物と判断されるか、手配中の犯罪者と判断される可能性がある。

スクリーニング

医療において、「スクリーニング」と「臨床検査」には大きな違いがある。

「スクリーニング」- 比較的簡易な検査であり、多人数に対していっせいに行うことが多い。症状が現れていない人を対象にすることが多い。
「臨床検査」 - 比較的高価な検査であり、血液を採取するなどの手段が用いられることが多い。このため何らかの病気ではないかと疑われる患者に対して、それを確認するために行うことが多い。

例えば、米国の多くの州では、新生児に対してフェニルケトン尿症と甲状腺機能低下症のような先天性疾患のスクリーニングを行う。この場合、「偽陽性」の確率が非常に高いが、非常に早い段階でそれらの疾患を検出できるという利点がある^[9]。

輸血の際にHIVや肝炎のスクリーニングを行うが、この場合も「偽陽性」の確率は高い。実際にそれらの病気にかかっているかの検査はもっと正確な結果が得られる。

スクリーニングで最も「偽陽性」が話題となるのは、マンモグラフィーによる乳癌の検査であろう。米国におけるマンモグラフィー検診での偽陽性率は 15% にもなっており、世界的に見ても非常に高い^[10]。オランダでは偽陽性率が最も低く、1% である^[11]。

臨床検査

健康診断では「偽陰性」が大きな問題となる。「偽陰性」の場合、患者に対して本当は病気にかかっているのにかかっていないという誤ったメッセージを伝えてしまう。このため、その後の治療方針が誤った前提の下に立てられてしまう。例えば、冠動脈の動脈硬化症を検出する心臓ストレステストで偽陰性があることが知られている。

特に症状がありきたりの病気の場合に「偽陰性」は深刻な問題を生じる。集団の中の患者数が非常に少ない場合には「偽陽性」が問題となる。詳しくはベイズ推定を参照されたい。

超常現象の調査

偽陽性という用語は超常現象や心霊の調査において、誤って証拠として採用される写真などを意味する。つまり、証明されていないが霊などが写っているとされる媒体（画像、動画、音声録音など）を指す^[12]。

脚注

^ ごまかしなどの他の意図的な誤りを除く。より網羅的な説明は Allchin (2001) を参照されたい。
^ ^a ^b 観測値と予測値の誤差の大きさが観測値の大きさとは無関係である。
^ 英語では、type I および type II という表記が普通であって、type-I や type-II、あるいは type 1 や type 2 とは書かない。
^ 検出アルゴリズムや検査法を開発する際に、偽陽性と偽陰性のリスクのバランスを考えねばならない。通常、そのアルゴリズムが一致と判断する際の差分のしきい値がある。しきい値が高ければ、偽陰性が増え、偽陽性が減る。
^ 例えば、Onwuegbuzie & Daniel (2003) では新たに8種類の過誤を定義している。
^ 1981年のアメリカ科学振興協会会長[1]
^ なお、Raiffa はこの回顧の中で「第三種過誤」を間違ってジョン・テューキー（1915年 - 2000年）の作った用語としている。
^ 偽陽性の発生率は語彙を制限することで減らすことができる。しかし、この作業にはコストがかかる。語彙を決定するには専門家の作業が必要になり、各文書に適切なインデックスを付与するという作業も発生するからである。
^ このような新生児スクリーニングについて、通常のスクリーニングに比較して偽陽性となる確率が12倍という研究結果がある (Gambrill, 2006. [2])
^ 偽陽性率が高いため、米国では10年間の間に受診した女性の半数が偽陽性の結果を受け取っている。このため、再検査などに毎年1億ドルかかっている。実際、陽性とされたうちの90%から95%が偽陽性であるという。
^ 偽陽性率が低いのは、結果を2回チェックしているため。また、2回目ではしきい値を高く設定しており、検査の統計的検定力を低下させているとも言える。
^ 心霊/超常現象の偽陽性の証拠例を示しているサイトとして Moorestown Ghost Research がある。

参考文献

Allchin, D., "Error Types", Perspectives on Science, Vol.9, No.1, (Spring 2001), pp.38-58.
Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp.121-144.
David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika, Vol.34, Nos.3/4, (December 1947), pp.335-339.
David, F.N., Probability Theory for Statistical Methods, Cambridge University Press, (Cambridge), 1949.
Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5 June 2006).
Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May 1960), pp.160-167.
Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp.133-142.
Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp.807-817.
Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors", American Educational Research Journal, Vol.7., No.3, (May 1970), pp.397-421.
Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp.383-393.
Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp.58-65.
Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp.121-127.
Neyman, J. & Pearson, E.S., "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I", reprinted at pp.1-66 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1928).
Neyman, J. & Pearson, E.S., "The testing of statistical hypotheses in relation to probabilities a priori", reprinted at pp.186-202 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1933).
Onwuegbuzie, A.J. & Daniel, L. G. "Typology of Analytical and Interpretational Errors in Quantitative and Qualitative Educational Research", Current Issues in Education, Vol.6, No.2, (19 February 2003).[4]
Pearson, E.S. & N eyman, J., "On the Problem of Two Samples", reprinted at pp.99-115 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1930).
Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison-Wesley, (Reading), 1968.

外部リンク

Free Beta (Type II Error Rate) Calculator for Multiple Regression Daniel Soper の Free Statistics Calculators より。
検定仔猫の遊び場

[1] ごまかしなどの他の意図的な誤りを除く。より網羅的な説明は Allchin (2001) を参照されたい。

[multiple-2] 観測値と予測値の誤差の大きさが観測値の大きさとは無関係である。

[3] 英語では、type I および type II という表記が普通であって、type-I や type-II、あるいは type 1 や type 2 とは書かない。

[algorithm-4] 検出アルゴリズムや検査法を開発する際に、偽陽性と偽陰性のリスクのバランスを考えねばならない。通常、そのアルゴリズムが一致と判断する際の差分のしきい値がある。しきい値が高ければ、偽陰性が増え、偽陽性が減る。

[5] 例えば、Onwuegbuzie & Daniel (2003) では新たに8種類の過誤を定義している。

[6] 1981年のアメリカ科学振興協会会長[1]

[7] なお、Raiffa はこの回顧の中で「第三種過誤」を間違ってジョン・テューキー（1915年 - 2000年）の作った用語としている。

[8] 偽陽性の発生率は語彙を制限することで減らすことができる。しかし、この作業にはコストがかかる。語彙を決定するには専門家の作業が必要になり、各文書に適切なインデックスを付与するという作業も発生するからである。

[9] このような新生児スクリーニングについて、通常のスクリーニングに比較して偽陽性となる確率が12倍という研究結果がある (Gambrill, 2006. [2])

[10] 偽陽性率が高いため、米国では10年間の間に受診した女性の半数が偽陽性の結果を受け取っている。このため、再検査などに毎年1億ドルかかっている。実際、陽性とされたうちの90%から95%が偽陽性であるという。

[11] 偽陽性率が低いのは、結果を2回チェックしているため。また、2回目ではしきい値を高く設定しており、検査の統計的検定力を低下させているとも言える。

[12] 心霊/超常現象の偽陽性の証拠例を示しているサイトとして Moorestown Ghost Research がある。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

統計的過誤とシステム的過誤

統計的過誤: 第一種と第二種

第一種過誤

第二種過誤

解説

語源

統計学的扱い

定義

第一種過誤と第二種過誤

偽陽性率

偽陰性率

ベイズの定理

過誤種別拡張の提案

David

Mosteller

Kaiser

Kimball

Mitroff と Featheringham

Raiffa

Marascuilo と Levin

具体例

コンピュータ

スクリーニング

臨床検査

超常現象の調査

関連項目

脚注

参考文献

外部リンク