我想通过使用scikit-learn对两个文本进行分类。但我想自己提取特征。就像在CountVectorizer上使用英语的stop_words='english'
停止单词列表一样。如何设置我自己的单词列表让计数矢量器计数?
您可以在 CountVectorizer 中为 stop_words 参数提供自己的停用词列表,它不会计算您不希望它在 scikit-learn 的输入文本中计数的单词。 例如,如果我不希望将"cat"、"dog"和"elephant"等单词用作标记,我会将 CountVectorizer 实例化为:
CountVectorizer(stop_words=['cat','dog', elephant'])
希望有帮助。