使用 tf-idf 时带有 R 和 tm 的新数据

使用R和tm，我加载并清理了一堆文本文档，并将它们制作成语料库。之后，我使用 tf-idf 构建了他们的 DTM，并且可以将其用于所有类型的分类聚类算法。目前为止，一切都好。

现在，假设我有一个新文档，并尝试计算它与语料库中文档的距离。当然，我需要将我应用于原始集合的所有转换应用于它。但是我不明白如何计算新文档的 tf-idf 向量，因为 tf-idf 依赖于整个集合，而不是这个单个文档。将新文档添加到语料库并重新计算其 tf-idf DTM 无法正常工作：它不仅效率低下，而且每个新文档都有机会获得已经看到的文档的值，这将改变我可能将它们作为 traininig 集运行的任何聚类分类算法的结果。

所以，我的问题是，我如何使用 R 和 tm 计算新文档的 tf-idf 向量，并使用它来计算新文档到训练语料库中每个文档的距离，而无需重新计算所有文档的 tf-idf？

提前谢谢。

首先，您可以在训练脚本中计算 idf 并将其另存为 R obj。

idf = log2(nDocs(dtm)/col_sums(dtm > 0))

然后在评分脚本中，您可以加载此 idf，并使用以下逻辑规范化您的评分 dtm

for(i in 1:length(dtmscore$i)){dtmscore$v[i] = idf[dtmscore$j[i]] * dtmscore$v[i] }

我希望这有帮助！

相关内容

最新更新

热门标签：