sklearn中的CountVectorizer,只有超过某个最小出现次数的单词



我正在使用sklearn对一些文本数据进行逻辑回归训练,方法是使用CountVectorizer将数据标记为bigram。我使用了一行代码,如下所示:

vect= CountVectorizer(ngram_range=(1,2), binary =True)

然而,我想将自己限制为仅在我的结果稀疏矩阵中包括在我的所有数据中出现超过某个阈值次数(例如,50)的二元图。有没有办法具体说明或实现这一点?

这似乎可以通过使用CountVectorizer的min_df参数来解决:

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

还可以使用CountVectorizer(ngram_range=(1,2), binary =True, max_features = 5000)来选择前5000个出现的双元图。

相关内容

  • 没有找到相关文章

最新更新