计数器中的特殊字符

考虑以下可运行的示例:

#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l =  vectorizer.get_feature_names()
for u in l:
        print u

输出将是

aba
hej
ho
na
ter

为什么要删除åäö ?请注意，矢量器strip_accents=None是默认值。如果你能帮我，我将非常感激。

这是一种有意的降低维数的方式，同时使矢量器能够容忍作者不总是与使用加粗字符一致的输入。

如果您想禁用该功能，只需将strip_accents=None传递给CountVectorizer，如该类文档中所解释的。

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> CountVectorizer(strip_accents='ascii').build_analyzer()(u'xe9txe9')
[u'ete']
>>> CountVectorizer(strip_accents=False).build_analyzer()(u'xe9txe9')
[u'xe9txe9']
>>> CountVectorizer(strip_accents=None).build_analyzer()(u'xe9txe9')
[u'xe9txe9']

相关内容

最新更新

热门标签：