小贝子编程

sklearn中的CountVectorizer，只有超过某个最小出现次数的单词

本文关键字：单词 CountVectorizer 中的 sklearn python text scikit-learn tokenize
更新时间 : 2023-08-31
英文 : CountVectorizer in sklearn with only words above some minimum number of occurrences

我正在使用sklearn对一些文本数据进行逻辑回归训练，方法是使用CountVectorizer将数据标记为bigram。我使用了一行代码，如下所示：

vect= CountVectorizer(ngram_range=(1,2), binary =True)

然而，我想将自己限制为仅在我的结果稀疏矩阵中包括在我的所有数据中出现超过某个阈值次数（例如，50）的二元图。有没有办法具体说明或实现这一点？

这似乎可以通过使用CountVectorizer的min_df参数来解决：

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

还可以使用CountVectorizer(ngram_range=(1,2), binary =True, max_features = 5000)来选择前5000个出现的双元图。

相关内容