我正在尝试在非英语文本数据集上运行LDA (Latent Dirichlet Allocation)。
在sklearn的教程中,有这一部分是计算输入LDA的单词的词频:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
max_features=n_features,
stop_words='english')
它有内置的停词功能,我想只有英语才有。我该如何使用我自己的停词表呢?
您可以直接为stop_words
分配您自己编写的list
,例如:
stop_words = (["word1", "word2","word3"])