如何评估数据集的类重叠



我正在使用Weka为医疗问题开发分类器。这个数据集有一个类不平衡的情况,我想知道是否也存在类重叠的问题。每条记录有 30 个属性,如何使用 Weka 功能发现是否存在类重叠?

当来自不同类的某些样本具有非常相似的特征时,就会发生类重叠

  1. 对数据集进行聚类。
  2. 如果您的实例属于同一集群,则它们非常相似。
  3. 然后使用实际的类成员身份查找错误率。
  4. 如果您的实例属于同一集群,但它们的类不同,那么您找到了所询问的内容。

要解决类不平衡问题,可以使用 SMOTE。它位于 Weka 监督过滤器(实例)中。但是你能解释一下你所说的类重叠是什么意思吗?

我想你的意思是"类重叠",存在属于不同类的类似实例。简单地说,您可以删除它们。在awk中,您可以执行以下操作:

awk '!NF || !seen[$0]++' inputFile > outputFile

相关内容

  • 没有找到相关文章

最新更新