我有一个一维数组,每个元素中都有大字符串。我正在尝试使用CountVectorizer
将文本数据转换为数字矢量。然而,我得到一个错误说:
AttributeError: 'numpy.ndarray' object has no attribute 'lower'
CCD_ 2在每个元素中都包含大字符串。有5000个这样的样本。我正试图将其矢量化,如下所示:
vectorizer = CountVectorizer(
stop_words='english',
ngram_range=(1, 1), #ngram_range=(1, 1) is the default
dtype='double',
)
data = vectorizer.fit_transform(mealarray)
完整堆栈:
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 817, in fit_transform
self.fixed_vocabulary_)
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 748, in _count_vocab
for feature in analyze(doc):
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 234, in <lambda>
tokenize(preprocess(self.decode(doc))), stop_words)
File "/Library/Python/2.7/site-packages/sklearn/feature_extraction/text.py", line 200, in <lambda>
return lambda x: strip_accents(x.lower())
AttributeError: 'numpy.ndarray' object has no attribute 'lower'
检查mealarray
的形状。如果fit_transform
的参数是字符串数组,则它必须是一维数组。(也就是说,mealarray.shape
的形式必须是(n,)
。)例如,如果mealarray
的形状为(n, 1)
,则会出现"无属性"错误。
你可以试试
data = vectorizer.fit_transform(mealarray.ravel())
得到了我的问题的答案。基本上,CountVectorizer将列表(包含字符串内容)作为参数,而不是数组。这解决了我的问题。
一个更好的解决方案是显式调用pandas系列并将其传递给CountVector():
>>> tex = df4['Text']
>>> type(tex)
<class 'pandas.core.series.Series'>
X_train_counts = count_vect.fit_transform(tex)
下一个不会工作,因为它是一个帧和NOT系列
>>> tex2 = (df4.ix[0:,[11]])
>>> type(tex2)
<class 'pandas.core.frame.DataFrame'>
我得到了相同的错误:
AttributeError: 'numpy.ndarray' object has no attribute 'lower'
为了解决这个问题,我做了以下操作:
- 使用以下项验证阵列的尺寸:
name_of_array1.shape
- I输出为:(n,1)然后使用
flatten()
将二维数组转换为一维数组:flat_array = name_of_array1.flatten()
- 现在,我可以使用
CountVectorizer()
,因为它可以将一个参数的列表作为字符串使用