属性错误：'int'对象在 TFIDF 和 CountVectorizer 中没有属性'lower'

我试图预测不同类别的入口消息，并研究波斯语。我使用Tfidf和Naive Bayes对输入数据进行分类。这是我的代码：

import pandas as pd
df=pd.read_excel('dataset.xlsx')
col=['label','body']
df=df[col]
df.columns=['label','body']
df['class_type'] = df['label'].factorize()[0]
class_type_df=df[['label','class_type']].drop_duplicates().sort_values('class_type')
class_type_id = dict(class_type_df.values)
id_to_class_type = dict(class_type_df[['class_type', 'label']].values)
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
features=tfidf.fit_transform(df.body).toarray()
classtype=df.class_type
print(features.shape)
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB 
X_train,X_test,y_train,y_test=train_test_split(df['body'],df['label'],random_state=0)
cv=CountVectorizer()
X_train_counts=cv.fit_transform(X_train)
tfidf_transformer=TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
clf = MultinomialNB().fit(X_train_tfidf, y_train)
print(clf.predict(cv.transform(["خريد و فروش لوازم آرايشي از بانه"])))

但是当我运行上面的代码时，它会抛出以下异常，而我希望在输出中给我"ads"类：

Traceback(最近调用last)：文件"…/multiclass-main.py"，第27行，inX_train_counts=cv.fit_transform(X_train)文件"…\ sklearn\feature_extraction\text.py"，第1012行，在fit_transform中self.fixed_dvocabulary_)文件"…sklearn\feature_extraction\text.py"，第922行，在_count_vocab中对于analyze(doc)中的功能：文件"…sklearn\feature_extraction\text.py"，第308行，位于tokenize(预处理(self.decode(doc))，stop_words)文件"…sklearn\feature_extraction\text.py"，第256行，inreturn lambda x:strip_accents(x.lower())AttributeError："int"对象没有属性"lower">

如何在此项目中使用Tfidf和CountVectorizer？

如您所见，错误为AttributeError: 'int' object has no attribute 'lower'，这意味着整数不能小写。在代码的某个地方，它尝试小写integer对象，这是不可能的。

为什么会发生这种情况

CountVectorizer构造函数的参数lowercase默认为True。当您调用.fit_transform()时，它会尝试将包含整数的输入小写。更具体地说，在您的输入数据中，您有一个项，它是一个整数对象。例如，您的列表包含类似于以下内容的数据：

corpus = ['sentence1', 'sentence 2', 12930, 'sentence 100']

当您将上面的列表传递给CountVectorizer时，它会抛出这样的异常。

如何修复

这里有一些可能的解决方案来避免这个问题：

1) 将语料库中的所有行转换为字符串对象。

corpus = ['sentence1', 'sentence 2', 12930, 'sentence 100']
corpus = [str (item) for item in corpus]

2) 删除语料库中的整数：

corpus = ['sentence1', 'sentence 2', 12930, 'sentence 100']
corpus = [item for item in corpus if not isinstance(item, int)]

您可以设置lowercase = False:

cv = CountVectorizer(lowercase=False)

相关内容

最新更新

热门标签：