我正在使用Weka为医疗问题开发分类器。这个数据集有一个类不平衡的情况,我想知道是否也存在类重叠的问题。每条记录有 30 个属性,如何使用 Weka 功能发现是否存在类重叠?
当来自不同类的某些样本具有非常相似的特征时,就会发生类重叠
- 对数据集进行聚类。
- 如果您的实例属于同一集群,则它们非常相似。
- 然后使用实际的类成员身份查找错误率。
- 如果您的实例属于同一集群,但它们的类不同,那么您找到了所询问的内容。
要解决类不平衡问题,可以使用 SMOTE。它位于 Weka 监督过滤器(实例)中。但是你能解释一下你所说的类重叠是什么意思吗?
我想你的意思是"类重叠",存在属于不同类的类似实例。简单地说,您可以删除它们。在awk中,您可以执行以下操作:
awk '!NF || !seen[$0]++' inputFile > outputFile