Fスコア(F-score、F尺度 F-measure とも)は、二項分類の統計分析において、テストの精度(系統誤差の小ささ)を示す指標である。テストの適合率 precision と再現率 recall とから計算される。適合率は、真陽性の数をすべての陽性結果の数(真陽性の数+偽陽性の数)で除したものであり、陽性適中率 positive predictive value とも呼ばれる。再現率は、真陽性の数を、陽性と識別されるべきだった標本数(真陽性の数+偽陰性の数)で除したものであり、感度 sensitivity とも呼ばれる。
F1スコアは、適合率と再現率との調和平均である。より一般的なスコアは適合率と再現率の加重調和平均であり、いずれかを優先する。
Fスコアは 0〜1 の値を取る。1 は適合率と再現率が完璧(ともに 1)であることを、0 は適合率の再現率のいずれかがゼロの場合であることを、それぞれ示す。
言葉の由来
Fスコアという名前は、第4回メッセージ理解会議(MUC-4, 1992)で紹介されたとき、Van Rijsbergen 氏の著書に記載されていた別のF関数にちなんで名付けられたとされている [1]。
定義
従来の FスコアまたはバランスFスコア( F1スコア)は、適合率と再現率との調和平均である。
より一般的なFスコアである では、正の係数βを用いており、再現率 recall が適合度 precision のβ倍重要であるとみなされる[2]。
第一種過誤と第二種過誤に関しては、これは次のようになる。
- 。
βとしては2および0.5を用いることが多く、2を用いる場合には再現率 recall を、0.5 を用いる場合には 適合度 precision を重要視する。
Van Rijsbergenの有効性尺度に基づいている。
- 。
ただし、
診断テスト
これは二項分類の分野に関連しており、再現率 recall はしばしば感度 sensitivity と呼ばれる。Template:DiagnosticTesting Diagram
応用
Fスコアは、情報検索の分野で、検索、文書分類、クエリ分類の性能を測定するためよく使われる。初期の研究では主に F1 スコアに注目していたが、大規模な検索エンジンの普及に伴い、パフォーマンスの目標が適合度 precision や再現率 recall のいずれかに重点を置くようになったため、 が広く使われるようになった[3]。
Fスコアは機械学習でも使用される[4]。しかし、Fスコアは真陰性を考慮しないため、バイナリ分類器の性能を評価するには、マシューズ相関係数、インフォームドネス、コーエンのカッパなどの尺度が好ましいかもしれない[5]。
Fスコアは、固有表現抽出やセグメンテーションの評価など、自然言語処理の文献[6]広く使用されている。
批判
デビッド・ハンド氏らは、F1スコアは精度と再現率を同等に重視していることから批判している。実際には、誤分類の種類が異なれば、コストも異なる。適合率と再現率の相対的な重要性が問題となる[7]。
Davide Chicco と Giuseppe Jurman によると、F1スコアは、バイナリ評価分類のマシューズ相関係数よりも真実性と情報量が少ないとのこと[8]。
David Powersは、F1が真陰性を無視するため、不均衡なクラスでは誤解を招くとを指摘している。
Fowlkes–Mallows インデックスとの違い
F-尺度は再現率と適合率の調和平均だが、 Fowlkes–Mallows インデックスはそれらの幾何平均である [9]。
多クラス分類への拡張
Fスコアは、3つ以上のクラスの分類問題(多クラス分類)の評価にも用いられる。この設定では、最終的なスコアは、ミクロ平均(クラスの頻度によるバイアスがある)またはマクロ平均(すべてのクラスを同等に重要視する)によって得られる。マクロ平均では、2つの異なる計算式が使用される。すなわち、クラスごとの適合率と再現率の平均に基づくFスコア、ないしクラスごとのFスコアの平均ある。後者の方がより望ましい特性を示す[10]。
関連項目
脚注
- ^ Sasaki, Y.. “The truth of the F-measure”. https://www.toyota-ti.ac.jp/Lab/Denshi/COIN/people/yutaka.sasaki/F-measure-YS-26Oct07.pdf
- ^ Van Rijsbergen, C. J. (1979). Information Retrieval (2nd ed.). Butterworth-Heinemann. http://www.dcs.gla.ac.uk/Keith/Preface.html
- ^ X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. doi:10.1145/1390334.1390393。
- ^ See, e.g., the evaluation of the .
- ^ Powers, David M. W. "What the F-measure doesn't measure". arXiv:1503.06410 [cs.IR]。
- ^ Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation.
- ^ Hand, David (英語). A note on using the F-measure for evaluating record linkage algorithms - Dimensions. doi:10.1007/s11222-017-9746-6. https://app.dimensions.ai/details/publication/pub.1084928040 2018年12月8日閲覧。.
- ^ “The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation”. BMC Genomics 21 (6): 6. (January 2020). doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6941312/.
- ^
“Classification assessment methods”. Applied Computing and Informatics (ahead-of-print). (August 2018). doi:10.1016/j.aci.2018.08.003.
- ^ J. Opitz; S. Burst. "Macro F1 and Macro F1". arXiv:1911.03347 [stat.ML]。