TF-IDF(単語の重要度の評価指標)

自然言語処理で使われる $\mathrm{TFIDF}$ という指標について説明します。

TFIDFとは

$\mathrm{TFIDF}$ とは、単語の重要度を表す指標です。

文書内で出現頻度が高い単語ほど、その文書の特徴を表すのに重要という考え方で計算される $\mathrm{TF}$ と、どんな文書にも登場する単語は、特定の文書の特徴を表すのには使えないという考え方で計算される $\mathrm{IDF}$ を組合せたのが $\mathrm{TFIDF}$ です。

具体的には、単語 $w$ と文書 $d$ ごとに決まる量です。
$\mathrm{TFIDF}(w,d)=\mathrm{TF}(w,d)\times\mathrm{IDF}(w)$
という式で定義されます。

以下では、$\mathrm{TF}$ と $\mathrm{IDF}$ について詳しく説明します。

TFとは

$\mathrm{TF}$ は、文書中に、特定の単語がどれくらい登場するかを表す指標です。

・$\mathrm{TF}$ は、Term Frequency(単語の出現頻度)の略です。

・単語 $w$、文書 $d$ ごとに定まる量なので、このページでは $\mathrm{TF}(w,d)$ と書くことにします。

・「単語の出現頻度」を定義する方法はいくつかありますが、例えば、単純に単語の出現回数とすることが多いようです。つまり、この定義では、$\mathrm{TF}(w,d)$ は、文書 $d$ に単語 $w$ が登場する回数です。

・$\mathrm{TF}$ が大きい単語ほど、よりたくさん登場する → 重要そうな単語 と考えることができそうです。

IDFとは

$\mathrm{IDF}$ は、特定の単語が、どれくらい様々な文書に登場するのか(しないのか)を表す指標です。

・$\mathrm{IDF}$ は、Inverse Document Frequency の略です。

・a とか the とかは、出現頻度は多いですが、ほぼ全ての文書に登場するので、特定の文書の特徴をうまく表す単語ではありません。文書の特徴を抽出するには、多くの文書には登場しないような珍しい単語を考える必要があります。この「多くの文書には登場しなさそうな度合い」を表すのが $\mathrm{IDF}$ です。

・$\mathrm{IDF}$ は、単語 $w$ ごとに定まる量なので、このページでは $\mathrm{IDF}(w)$ と書くことにします。

・こちらも同じく定義が複数考えられますが、例えば、$\mathrm{IDF}(w)=\log\dfrac{|D|}{n(w)}$ と定義されます。$D$ は文書数で、$n(w)$ は、$w$ が含まれる文書数です。例えば、考えている文書の総数が $100$ で、そのうち $w$ が $5$ 個の文書に登場する場合、$\mathrm{IDF}(w)=\log 20$ となります。

・$\mathrm{IDF}$ が大きい単語ほど、多くの文書には登場しない → もし登場したら重要そうな単語 と考えることができます。

余談

TF-IDF のように、TF と IDF の間にハイフンを入れたほうが良さそうですが、数式内でハイフンがうまく出力できないので省略しました。

次:反射律、対称律、推移律の意味と例
前:編集距離(レーベンシュタイン距離)の求め方

スポンサーリンク

スポンサーリンク

誤植がございましたら @mathwordsnet までご連絡をお願いいたします。
ページ上部へ戻る