如何为sklearn CountVectorizer设置自定义停止词



我正在尝试在非英语文本数据集上运行LDA (Latent Dirichlet Allocation)。

在sklearn的教程中,有这一部分是计算输入LDA的单词的词频:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它有内置的停词功能,我想只有英语才有。我该如何使用我自己的停词表呢?

您可以直接为stop_words分配您自己编写的list,例如:

stop_words = (["word1", "word2","word3"])

相关内容

  • 没有找到相关文章

最新更新