如何保存标点符号在Scikit-Learn文本CountVectorizer或TfidfVectorizer



我是否有办法使用scikit-learn中的文本CountVectorizerTfidfVectorizer参数从我的文本文档中保留!,?,"和'的标点符号?

您应该在实例化矢量器时自定义token_pattern参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)bww+b|!|?|"|'")

相关内容

  • 没有找到相关文章

最新更新