tf-idf

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Wdqh (会話 | 投稿記録) による 2020年4月1日 (水) 12:17個人設定で未設定ならUTC)時点の版 (Okapi BM25を関連項目に追加)であり、現在の版とは大きく異なる場合があります。

tf-idfは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。

tf-idfは、tf: Term Frequency、単語の出現頻度)とidf: Inverse Document Frequency、逆文書頻度)の二つの指標に基づいて計算される。

は文書における単語の出現回数、は文書におけるすべての単語の出現回数の和、は総文書数、は単語を含む文書数である。そのため、idfは一種の一般語フィルタとして働き、多くの文書に出現する語(一般的な語)は重要度が下がり、特定の文書にしか出現しない単語の重要度を上げる役割を果たす。

関連項目