小贝子编程

使用 scikit-learn 查找 Tf-Idf 仅从一组文档中选定单词的分数

本文关键字：文档单词一组 Tf-Idf 查找 scikit-learn 使用 python scipy nlp scikit-learn tf-idf
更新时间 : 2023-08-30
英文 : Finding Tf-Idf Scores of only selected words from set of documents using scikit-learn

我有一组文档（存储为.txt文件）。我还有一个包含一些选定单词的python字典。我只想将 tf-idf 分数分配给文档集中的这些单词，而不是所有单词。如何使用scikit-learn或任何其他库来完成此操作？

我已经参考了这篇博文，但它提供了完整的词汇。

您可以使用

CountVectorizer 来执行此操作，它将文档扫描为文本并转换为术语文档矩阵，并在矩阵上使用TfidfTrasnformer。

这两个步骤也可以与TfidfVectorizer组合并一起完成。

这些位于sklearn.feature_extraction.text模块 [链接] 中。

这两个过程都将返回相同的稀疏矩阵表示，我认为您可能会通过TruncatedSVD进行 SVD 变换以获得更小的密集矩阵。

当然，您也可以自己动手，这需要保留两张地图，每张文档一张，一张整体，用于计算术语。这就是他们在引擎盖下运作的方式。

这个页面有一些很好的例子。

相关内容