如何处理分类器中的不平衡类

我正在使用LinearSVM将我的文档分类。但是，我的数据集是不平衡的，有些类别下有 48,000 个文档，有些则小到 100 个。当我训练我的模型时，即使使用分层 KFold，我看到具有 48,000 个文档的类别比其他类别获得的文档（3300）更大比例。在这种情况下，它肯定会给我有偏见的预测。如何确保此选择没有偏见？

kf=StratifiedKFold(labels, n_folds=10, shuffle=True)
for train_index, test_index in kf:
     X_train, X_test = docs[train_index],docs[test_index]
     Y_train, Y_test = labels[train_index],labels[test_index]

然后我把这些（X_train，Y_train）写入一个文件，计算特征矩阵并将它们传递给分类器，如下所示：

model1 = LinearSVC()
model1 = model1.fit(matrix, label_tmp)
pred = model1.predict(matrix_test)
print("Accuracy is:")
print(metrics.accuracy_score(label_test, pred))
print(metrics.classification_report(label_test, pred))

默认情况下，StratifiedKFold 方法会考虑所有类中标签的比率，这意味着每个折叠都将具有该样本中每个标签的确切（或接近精确）比率。是否要对此进行调整取决于您 - 您可以让分类器学习具有更多样本的标签的某种偏差（就像您现在一样），或者您可以做以下两件事之一：

构造一个单独的训练/测试集，其中训练集在每个标签中具有相同数量的样本（因此在您的情况下，训练集中的每个类标签可能只有 50 个样本，这并不理想）。然后，您可以在训练集上进行训练，并在其余集上进行测试。如果您使用不同的样本多次执行此操作，则本质上是在进行 k 折叠交叉验证，只是以不同的方式选择样本大小。
您可以更改损失函数（即初始化LinearSVC()的方式来解释类不平衡。例如：model = LinearSVC(class_weight='balanced') .这将导致模型学习考虑类不平衡的损失函数。

相关内容

最新更新

热门标签：