我是否有办法使用scikit-learn中的文本CountVectorizer
或TfidfVectorizer
参数从我的文本文档中保留!,?,"和'的标点符号?
您应该在实例化矢量器时自定义token_pattern
参数。例如:
vent = CountVectorizer(token_pattern=r"(?u)bww+b|!|?|"|'")