詞頻(term frequency,tf):某一個給定的詞語在該檔案中出現的頻率
逆向檔案頻率(inverse document frequency,idf):是一個詞語普遍重要性的度量
由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取以 10 為底的對數得到
一篇檔案的總詞語數是 100 個,而詞語「美猴王」出現了 3 次
🡪 詞頻就是 3/100=0.03
計算檔案頻率(IDF)的方法是以檔案集的檔案總數,除以出現「美猴王」一詞的檔案數。所以,如果「美猴王」一詞在 10 個檔案出現過,而檔案總數是 10,000 個的話
🡪 逆向檔案頻率就是 lg(10,000 / 10)=3
🡪 「美猴王」一詞的 tf-idf 的分數為 0.03 * 3=0.09
⚠️ 缺點:
idf 的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分布情況
tf-idf演算法中並沒有體現出單詞的位置資訊
Ex:對於 Web 文件而言,權重的計算方法應該體現出 HTML 的結構特徵
Web 文件
tf-idf 如何應用