我正在使用sklearn对一些文本数据进行逻辑回归训练,方法是使用CountVectorizer将数据标记为bigram。我使用了一行代码,如下所示:
vect= CountVectorizer(ngram_range=(1,2), binary =True)
然而,我想将自己限制为仅在我的结果稀疏矩阵中包括在我的所有数据中出现超过某个阈值次数(例如,50)的二元图。有没有办法具体说明或实现这一点?
这似乎可以通过使用CountVectorizer的min_df参数来解决:
vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)
还可以使用CountVectorizer(ngram_range=(1,2), binary =True, max_features = 5000)
来选择前5000个出现的双元图。