「混同行列」の版間の差分

削除された内容追加された内容

インライン

2021年8月23日 (月) 13:49時点における版

機械学習の分野、特に統計的分類の問題において、混同行列（こんどうぎょうれつ、英: confusion matrix）は、アルゴリズムのせいのうを可視化するための特有の表配置である。誤差行列（error matrix）とも呼ばれる。通常は教師あり学習で使用される（教師なし学習では通常、マッチング行列と呼ばれる）。行列の行方向は実際のクラス（部分集合）のインスタンス（実体）を表し、列方向はモデルで予測されたクラスのインスタンスを表す^[1]が、その逆の場合もある^[2]。

これは特別な種類の分割表で、2つの次元（「実際」と「予測」）と、両方の次元で同一の「クラス」のセットからなる（次元とクラスの各組み合わせは分割表の変数である）。

混同行列の例

例として、ネコの写真が8枚、イヌの写真が4枚の計12枚の写真がサンプルとして与えられ、ネコがクラス1に、イヌがクラス0に属するとする。

この例では、正解となる実際の値を

実際 = [1,1,1,1,1,1,0,0,0] と表示することができる。

ここで、ネコとイヌを区別する分類器で学習したと仮定して、この12枚の写真を分類器にかける。この分類器は9つの写真で正確な予測を行い、以下の3つの予測を外したとする。

予測結果 = [0,0,1,1,1,1,0,0,1]

この予測結果では以下のことがわかる。

最初の2匹のネコがイヌと間違って予測
最後の1匹のイヌがネコと間違って予測

この2つのラベル付きのデータセット（実際と予測）を使って、分類器で予測した結果をまとめた混同行列は以下の通りとなる。

予測実際	ネコ	イヌ
ネコ	6	2
イヌ	1	3

この混同行列では、8枚のネコの写真のうち、2枚をイヌと判断し、4枚のイヌの写真のうち、1枚をネコと予測している。正しい予測ができた数が表の対角線上に位置しており（太字で表示）、対角線から外れた部分に誤判定の数を表示している^[2]。混同行列により、分類結果を簡単かつ視覚的に表すことが可能である^[3]。

混同テーブル

予測分析において、混同表（混同行列と呼ばれることもある）とは、2行2列の表で、真陽性、真陰性、偽陽性、偽陰性の数を表したものである。これにより、単なる正しい分類の割合（精度）だけでなく、より詳細な分析が可能になる。精度は、データセットが不均衡な場合、つまり、異なるクラスの観測数が大きく異なる場合、誤解を招く結果をもたらす。例えば、上記の例で極端に猫と犬の割合を変えて、猫が95匹、犬が5匹で分類をした場合、分類器によってはすべての予測を猫として分類するかもしれない。その場合、全体の精度は95% (95/100) となる。しかし、詳細を確認してみると、その分類器は猫クラスの認識率（感度）は100%だが、犬クラスの認識率は0%である。なお、F1スコアはこのような例では低くなり97.4%以上となる。Davide ChiccoとGiuseppe Jurmanによると、混同行列を評価するための最も有益な指標は、マシューズ相関係数（MCC）である^[4]。

一般的な混同行列は以下のように表記される。

予測クラス実際クラス	Positive	Negative
Positive	真陽性 (TP)	偽陰性 (FN)
Negative	偽陽性 (FP)	真陰性 (TN)

上記のネコの写真の分類器の例における混同行列は次のようになる。

予測クラス実際クラス	ネコ	ネコ以外
ネコ	6 真陽性 (TP)	2 偽陰性 (FN)
ネコ以外	1 偽陽性 (FP)	3 真陰性 (TN)

多クラスにおける混同行列

混同行列は二値分類に限らず、3つ以上の分類でも利用できる^[5]。以下の例は、2者間の口笛言語によるコミュニケーションをまとめたもので、母音5種類のクロス表である。わかりやすさのため、0を省略している^[6]。

知覚された母音発音した母音	i	a	o	u
i	15	1
e	1	1
a		79	5
o		4	15	3
u			2	2

脚注

^ Powers, David M. W. (2011). “Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation”. Journal of Machine Learning Technologies 2 (1): 37–63.
^ ^a ^b Labatut & Cherifi 2011, p. 23.
^ gregorybchris. “AutoML 実験結果の評価 - Azure Machine Learning”. docs.microsoft.com. 2021年8月23日閲覧。
^ Chicco, D.; Jurman, G. (2020). “The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation”. BMC Genomics 21 (1): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512
^ Rialland, Annie (August 2005). “Phonological and phonetic aspects of whistled languages”. Phonology 22 (2): 237–271. doi:10.1017/S0952675705000552.

参考文献

Labatut, Vincent; Cherifi, Hocine (2011). “Evaluation of Performance Measures for Classifiers Comparison”. Ubiquitous Computing and Communication Journal 6: 21-34.

[Powers2011-1] Powers, David M. W. (2011). “Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation”. Journal of Machine Learning Technologies 2 (1): 37–63.

[FOOTNOTELabatutCherifi201123-2] Labatut & Cherifi 2011, p. 23.

[3] regorybchris. “AutoML 実験結果の評価 - Azure Machine Learning”. docs.microsoft.com. 2021年8月23日閲覧。

[4] Chicco, D.; Jurman, G. (2020). “The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation”. BMC Genomics 21 (1): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.

[5] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512

[6] Rialland, Annie (August 2005). “Phonological and phonetic aspects of whistled languages”. Phonology 22 (2): 237–271. doi:10.1017/S0952675705000552.

[1]

[2]

[3]

[4]

[5]

[6]

@@ 1行目: / 1行目: @@
-[[機械学習]]の分野、特に[[統計的分類]]の問題において、'''混同行列'''（エラー行列とも呼ばれる{{要出典|date=2021年8月}}<!-- error matrixと呼ばれること自体は正しいと思いますが、日本語でエラー行列と呼ぶ例がすぐには見当たらない -->）は、アルゴリズムのパフォーマンスを可視化するための表記であり、通常は[[教師あり学習]]で使用される（[[教師なし学習]]では通常、'''マッチング行列'''と呼ばれる）。[[行列]]の行方向は実際のクラスのインスタンスを表し、列方向はモデルで予測されたクラスのインスタンスを表す<ref name="Powers2011">{{cite journal |first=David M. W. |last=Powers |date=2011 |title=Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |url=https://www.researchgate.net/publication/228529307 |s2cid=55767944 }}</ref>が、その逆の場合もある{{Sfn|Labatut|Cherifi|2011|p=23}}。
+[[機械学習]]の分野、特に[[統計的分類]]の問題において、'''混同行列'''（こんどうぎょうれつ、{{lang-en-short|confusion matrix}}）は、[[アルゴリズム]]のせいのうを可視化するための特有の表配置である。誤差行列（error matrix）とも呼ばれる。通常は[[教師あり学習]]で使用される（[[教師なし学習]]では通常、'''マッチング行列'''と呼ばれる）。[[行列]]の行方向は実際のクラス（部分集合）の[[インスタンス]]（実体）を表し、列方向はモデルで予測されたクラスのインスタンスを表す<ref name="Powers2011">{{cite journal |first=David M. W. |last=Powers |date=2011 |title=Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |url=https://www.researchgate.net/publication/228529307 |s2cid=55767944 }}</ref>が、その逆の場合もある{{Sfn|Labatut|Cherifi|2011|p=23}}。
 これは特別な種類の[[分割表]]で、2つの次元（「実際」と「予測」）と、両方の次元で同一の「クラス」のセットからなる（次元とクラスの各組み合わせは分割表の変数である）。
 == 混同行列の例 ==
-例として、猫の写真が8枚、犬の写真が4枚の計12枚の写真がサンプルとして与えられ、猫がクラス1に、犬がクラス0に属するとする。
+例として、ネコの写真が8枚、イヌの写真が4枚の計12枚の写真がサンプルとして与えられ、ネコがクラス1に、イヌがクラス0に属するとする。
 この例では、正解となる実際の値を
@@ 10行目: / 10行目: @@
 実際 = [1,1,1,1,1,1,0,0,0] と表示することができる。
-ここで、猫と犬を区別する分類器で学習したと仮定して、この12枚の写真を分類器にかける。この分類器は9つの写真で正確な予測を行い、以下の3つの予測を外したとする。
+ここで、ネコとイヌを区別する分類器で学習したと仮定して、この12枚の写真を分類器にかける。この分類器は9つの写真で正確な予測を行い、以下の3つの予測を外したとする。
 予測結果 = [0,0,1,1,1,1,0,0,1]
@@ 16行目: / 16行目: @@
 この予測結果では以下のことがわかる。
-# 最初の2匹の猫が犬と間違って予測
+# 最初の2匹のネコがイヌと間違って予測
-# 最後の1匹の犬が猫と間違って予測
+# 最後の1匹のイヌがネコと間違って予測
 この2つのラベル付きのデータセット（実際と予測）を使って、分類器で予測した結果をまとめた混同行列は以下の通りとなる。
@@ 24行目: / 24行目: @@
 |-
 ! {{diagonal split header|実際|予測}}
-! 猫
+! ネコ
-! 犬
+! イヌ
 |-
-! 猫
+! ネコ
 | '''6'''
 | 2
 |-
-! 犬
+! イヌ
 | 1
 | '''3'''
 |}
-この混同行列では、8枚の猫の写真のうち、2枚を犬と判断し、4枚の犬の写真のうち、1枚を猫と予測している。正しい予測ができた数が表の対角線上に位置しており（太字で表示）、対角線から外れた部分に誤判定の数を表示している{{Sfn|Labatut|Cherifi|2011|p=23}}。
+この混同行列では、8枚のネコの写真のうち、2枚をイヌと判断し、4枚のイヌの写真のうち、1枚をネコと予測している。正しい予測ができた数が表の対角線上に位置しており（太字で表示）、対角線から外れた部分に誤判定の数を表示している{{Sfn|Labatut|Cherifi|2011|p=23}}。
 混同行列により、分類結果を簡単かつ視覚的に表すことが可能である<ref>{{Cite web|title=AutoML 実験結果の評価 - Azure Machine Learning|url=https://docs.microsoft.com/ja-jp/azure/machine-learning/how-to-understand-automated-ml|website=docs.microsoft.com|accessdate=2021-08-23|language=ja-jp|last=gregorybchris}}</ref>。
 == 混同テーブル ==
+[[予測分析]]において、'''混同表'''（'''混同行列'''と呼ばれることもある）とは、2行2列の表で、真陽性、真陰性、偽陽性、偽陰性の数を表したものである。これにより、単なる正しい分類の割合（精度）だけでなく、より詳細な分析が可能になる。精度は、データセットが不均衡な場合、つまり、異なるクラスの観測数が大きく異なる場合、誤解を招く結果をもたらす。例えば、上記の例で極端に猫と犬の割合を変えて、猫が95匹、犬が5匹で分類をした場合、分類器によってはすべての予測を猫として分類するかもしれない。その場合、全体の精度は95% (95/100) となる。しかし、詳細を確認してみると、その分類器は猫クラスの認識率（[[感度]]）は100%だが、犬クラスの認識率は0%である。なお、F1スコアはこのような例では低くなり97.4%以上となる。Davide ChiccoとGiuseppe Jurmanによると、混同行列を評価するための最も有益な指標は、マシューズ相関係数（MCC）である<ref>{{cite journal|title= The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation |author=Chicco, D.; Jurman, G.|journal= BMC Genomics|year=2020 |volume=21|issue=1|pages=6|doi=10.1186/s12864-019-6413-7|pmc=6941312|pmid= 31898477 }}</ref>。
-[[予測分析]]において、'''混同テーブル'''（'''混同マトリクス'''や'''混同行列'''と呼ばれることもある）とは、2行2列の表で、真陽性、真陰性、偽陽性、偽陰性の数を表したものである。これにより、単なる正しい分類の割合（精度）だけでなく、より詳細な分析が可能になる。
-精度は、データセットが不均衡な場合、つまり、異なるクラスの観測数が大きく異なる場合、誤解を招く結果をもたらす。
-例えば、上記の例で極端に猫と犬の割合を変えて、猫が95匹、犬が5匹で分類をした場合、分類器によってはすべての予測を猫として分類するかもしれない。その場合、全体の精度は95%(95/100)となる。しかし、詳細を確認してみると、その分類器は猫クラスの認識率（[[感度]]）は100%だが、犬クラスの認識率は0%である。
-なお、F1スコアはこのような例では低くなり97.4%以上となる。
-Davide ChiccoとGiuseppe Jurmanによると、混同行列を評価するための最も有益な指標は、マシューズ相関係数（MCC）である<ref>https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6941312/</ref>。
 一般的な混同行列は以下のように表記される。
@@ 56行目: / 51行目: @@
 |-
 ! Positive
-| '''真陽性(TP)'''
+| '''真陽性 (TP)'''
-| 偽陰性(FN)
+| 偽陰性 (FN)
 |-
 ! Negative
-| 偽陽性(FP)
+| 偽陽性 (FP)
-| '''真陰性(TN)'''
+| '''真陰性 (TN)'''
 |}
-上記の猫の写真の分類器の例における混同行列は次のようになる。
+上記のネコの写真の分類器の例における混同行列は次のようになる。
 {| class="wikitable" style="text-align:center;"
 |-
 ! {{diagonal split header|実際クラス|予測クラス}}
-! 猫
+! ネコ
-! 猫以外
+! ネコ以外
 |-
-! 猫
+! ネコ
-| '''6 真陽性(TP)'''
+| '''6 真陽性 (TP)'''
-| 2 偽陰性(FN)
+| 2 偽陰性 (FN)
 |-
-! 猫以外
+! ネコ以外
-| 1 偽陽性(FP)
+| 1 偽陽性 (FP)
-| '''3 真陰性(TN)'''
+| '''3 真陰性 (TN)'''
 |}
 == 多クラスにおける混同行列 ==
-混同行列は二値分類に限らず、３つ以上の分類でも利用できる<ref>Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512</ref>。以下の例は、2者間の[[口笛言語]]によるコミュニケーションをまとめたもので、母音5種類のクロス表である。わかりやすさのため、0を省略している<ref>{{cite journal |last1=Rialland |first1=Annie |title=Phonological and phonetic aspects of whistled languages |journal=Phonology |date=August 2005 |volume=22 |issue=2 |pages=237–271 |doi=10.1017/S0952675705000552 |citeseerx=10.1.1.484.4384 }}</ref>。
+混同行列は二値分類に限らず、3つ以上の分類でも利用できる<ref>Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512</ref>。以下の例は、2者間の[[口笛言語]]によるコミュニケーションをまとめたもので、母音5種類のクロス表である。わかりやすさのため、0を省略している<ref>{{cite journal |last1=Rialland |first1=Annie |title=Phonological and phonetic aspects of whistled languages |journal=Phonology |date=August 2005 |volume=22 |issue=2 |pages=237–271 |doi=10.1017/S0952675705000552 |citeseerx=10.1.1.484.4384 }}</ref>。
 {| class="wikitable" style="text-align:center;"