如何评估数据集的类重叠

我正在使用Weka为医疗问题开发分类器。这个数据集有一个类不平衡的情况，我想知道是否也存在类重叠的问题。每条记录有 30 个属性，如何使用 Weka 功能发现是否存在类重叠？

当来自不同类的某些样本具有非常相似的特征时，就会发生类重叠

要解决类不平衡问题，可以使用 SMOTE。它位于 Weka 监督过滤器（实例）中。但是你能解释一下你所说的类重叠是什么意思吗？

我想你的意思是"类重叠"，存在属于不同类的类似实例。简单地说，您可以删除它们。在awk中，您可以执行以下操作：

awk '!NF || !seen[$0]++' inputFile > outputFile

相关内容