值错误：未知标签类型："未知"在随机森林分类器中

我正在尝试使用RandomForestClassifier 训练数据集

transformer = TfidfVectorizer(lowercase=True, stop_words=stop, max_features=500)
X = transformer.fit_transform(df.Text)
y = transformer.fit_transform(df.category)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model = RandomForestClassifier()
model.fit(X_train, y_train)

我的数据集就像

Review(text format)    Category(text format)
Its good product       good product
Its damaged product    damaged product

我得到一个错误

raise ValueError("Unknown label type: %r" % y_type)
ValueError: Unknown label type: 'unknown'

有人能提出解决方案吗？

RandomForestClassifier实例需要以下数据作为标签：

y：类似数组，shape=[n_samples]或[n_samples，n_outputs]目标值(分类中的类标签，回归中的实数)。

但是transformer.fit_transform(df.category)返回类型为'<class 'numpy.float64'>的稀疏矩阵，这是不期望的。

如果你试图将一些数据分类到有限的类别中，例如"好产品"、"损坏产品"。。。等等，你可以不逐字编码这些数据，而是通过标签编码器作为标签：

(关于预测每个单词的多标签分类，请参阅下文)

transformer = TfidfVectorizer(lowercase=True, stop_words=stop, max_features=500)
X = transformer.fit_transform(df.Text)
le = LabelEncoder()
y = le.fit_transform(df.category)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model = RandomForestClassifier()
model.fit(X_train, y_train)
le.inverse_transform(model.predict(X_test))
Out:
array(['good product', 'good product'], dtype=object)

-(或者说)-这是最简单的解决方案。

如果你打算做一些多标签分类，有两个问题：

根据df.category行中不同单词的数量，会有很多标签
稀疏矩阵是可以转换为numpy.array的东西，但它需要内存，并且矩阵共包含浮点值，因为它是tf-idf值，但RandomForestClassifier可以与整数标签一起使用：

因此，

y.toarray()
array([[0.        , 0.77722116, 0.62922751, 0.        ],
[0.84292635, 0.        , 0.53802897, 0.        ],
[0.        , 0.        , 0.        , 1.        ],
[0.        , 0.77722116, 0.62922751, 0.        ]])

-好的，它可以转换为一些{0, 1}整数数组，但使用MultiLabelBinarizer更容易(注意，split应用于每行以获得按字而非按字符的二进制化)：

transformer = TfidfVectorizer(lowercase=True, stop_words=stop, max_features=500)
X = transformer.fit_transform(df.Text)
mlb = MultiLabelBinarizer()
y = mlb.fit_transform(df.category.map(lambda x: x.split()))
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model = RandomForestClassifier()
model.fit(X_train, y_train)

在这种情况下，y是：

y
Out:
array([[0, 1, 1, 0],
[1, 0, 1, 0],
[0, 0, 0, 1],
[0, 1, 1, 0]])

它可以预测单词：

mlb.inverse_transform(model.predict(X_test))
Out:
[('good', 'product'), ('good', 'product')]

重新安装TfidfTransformer是危险的
脱离主题，但是：您已经在此处重新安装了矢量器：

X = transformer.fit_transform(df.Text)
print(transformer.vocabulary_)
y = transformer.fit_transform(df.category)
print(transformer.vocabulary_)
Out:
{'its': 3, 'good': 1, 'product': 6, 'damaged': 0, 'sttate': 7, 'is': 2, 'unknown': 8, 'one': 5, 'more': 4}
{'good': 1, 'product': 2, 'damaged': 0, 'unknown': 3}

-如果稍后尝试使用transformer对Text数据进行一些处理，则可能会导致错误。最好实例化两个转换器并分别使用它们。

相关内容

最新更新

热门标签：