Scikit 文本分类 – 错误的输入形状错误 - Scikit Text Classification

我已经修改了本教程(http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html)，以在路透社语料库上构建文本分类器。但是，我得到一个错误的输入形状错误：

编辑：感谢@Vivek Kumar的帮助，我已经解决了错误的输入形状问题。但是，现在我得到一个属性错误：找不到更低。经过一些研究，我认为这可能与路透社语料库没有正确的形式有关。有什么方法可以解决这个问题吗？

这是我的代码：

from sklearn.datasets import fetch_rcv1 #import reuters corpus
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
rcv1 = fetch_rcv1()

reuters_train = fetch_rcv1(subset='train', shuffle=True, random_state=42)
reuters_train.target_names
count_vect = CountVectorizer()
train_counts = count_vect.fit_transform(reuters_train.data)
train_counts.shape
count_vect.vocabulary_.get(u'alogrithm')
tf_transformer = TfidfTransformer(use_idf=False).fit(train_counts)
train_tf = tf_transformer.transform(train_counts)
train_tf.shape
tfidf_transformer = TfidfTransformer()
train_tfidf = tfidf_transformer.fit_transform(train_counts)
train_tfidf.shape
clf = MultinomialNB().fit(train_tfidf, reuters_train.target)
text_clf = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB()),])
text_clf.fit(reuters_train.data, reuters_train.target)
Pipeline(...)
import numpy as np
reuters_testset = fetch_rcv1(subset='test', shuffle=True, random_state=42)
reuters_test = reuters_testset.data
predicted = text_clf.predict(reuters_test)
np.mean(predicted == reuters_test.target)

我是编程和NLP的真正初学者，所以我真的不太了解所有这些东西。感谢您的任何建议和帮助！

这是因为您没有使用CountVectorizer中的实际数据。您正在使用reuters_train而您应该使用reuters_train.data.

改变：

train_counts = count_vect.fit_transform(reuters_train)

自：

train_counts = count_vect.fit_transform(reuters_train.data)

还有 CountVectorizer + TfidfTransformer = TfidfVectorizer。所以我建议使用两个对象的代替。

进一步阅读此处 RCV1 数据集的描述，鉴于.data包含：

非零值包含余弦归一化对数 TF-IDF 向量。

因此，无需实际对数据执行 CountVectorizer 和 TfidfTransformer，您可以像这样直接使用它：

clf = MultinomialNB().fit(reuters_train.data, reuters_train.target)

但是您将再次遇到错误，这次是由于目标数据的形状。您会看到MultinomialNB().fit()仅适用于单维目标(可能是多类或二进制)，而不适用于多标签或多输出数据。

TLDR;因此，您需要从代码中删除CountVectorizer和TfidfTransformer，因为它已经在数据中完成，并且您需要将分类器MultinomialNB更改为任何其他在目标y中支持2-d的分类器，例如DecisionTreeClassifier或其他分类器。

Scikit 文本分类 – 错误的输入形状错误

相关内容

最新更新

热门标签：