为什么在机器学习中有倒数文档频率的日志项?我们也可以在没有日志的情况下使用,在这里对日志的真实用途是什么



我也可以在没有日志的情况下实现IDF,在IDF中使用日志的意义是什么?

喜欢 - :idf = log(该单词中的文档/#of doc/#出现)

但是为什么我们不能使用IDF =(该词中的DOC/#的#出现)

这是因为IDF将乘以术语频率tf。对于非常常见的单词,如果不使用日志,IDF可能是1,因此即使这些常用单词最终也会比实际的稀有和有用的单词更重。使用log,对于最常见的单词,IDF可以变为0,因此它们的有效TF-IDF也变为0,并且可以忽略它们。

相关内容

最新更新