tf-idf

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索文章要約などの分野で利用される。

tf-idfは、tf(単語の出現頻度)とidf(逆文書頻度)の二つの指標にもとづいて計算される。

 \mathrm{tfidf} = \mathrm{tf} \cdot  \mathrm{idf}

 \mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}

 \mathrm{idf_i} =  \log \frac{|D|}{|\{d: d \ni t_{i}\}|}

 n_{i,j} は単語iの文書jにおける出現回数、 |D| は総ドキュメント数、|\{d: d \ni t_{i}\}|は単語iを含むドキュメント数である。そのため、idfは一種の一般語フィルタとして働き、多くのドキュメントに出現する語(一般的な語)は重要度が下がり、特定のドキュメントにしか出現しない単語の重要度を上げる役割を果たす。

(注) tf : Term Frequency, idf : Inverse Document Frequency

関連項目[編集]