如何使用scikit-learn对文本进行分类



我想通过使用scikit-learn对两个文本进行分类。但我想自己提取特征。就像在CountVectorizer上使用英语的stop_words='english'停止单词列表一样。如何设置我自己的单词列表让计数矢量器计数

您可以在 CountVectorizer 中为 stop_words 参数提供自己的停用词列表,它不会计算您不希望它在 scikit-learn 的输入文本中计数的单词。 例如,如果我不希望将"cat"、"dog"和"elephant"等单词用作标记,我会将 CountVectorizer 实例化为:

CountVectorizer(stop_words=['cat','dog', elephant'])

希望有帮助。

相关内容

  • 没有找到相关文章

最新更新