我也可以在没有日志的情况下实现IDF,在IDF中使用日志的意义是什么?
喜欢 - :idf = log(该单词中的文档/#of doc/#出现)
但是为什么我们不能使用IDF =(该词中的DOC/#的#出现)
这是因为IDF将乘以术语频率tf。对于非常常见的单词,如果不使用日志,IDF可能是1,因此即使这些常用单词最终也会比实际的稀有和有用的单词更重。使用log
,对于最常见的单词,IDF可以变为0,因此它们的有效TF-IDF也变为0,并且可以忽略它们。