对于可能真正学会区分这两类的机器学习方法,你有什么建议吗?



>我有一个有很多重叠的数据集。到目前为止,我对 SVM 的结果并不好。对于这两个数据集之间可能不同的模型,您有什么建议吗?

两个类的散点图

通过插值其中一个类并以其他方式预测另一个类来轻松拟合数据集。但是,这种方法的问题在于,它不能很好地泛化。你必须问自己的问题是,你是否可以在给定属性的情况下预测一个点的类别。如果不是,那么每个ML算法也将无法做到这一点。

然后,您可以做的唯一合理的事情就是为每个点收集更多数据和更多属性。也许通过添加第三个维度,您可以更轻松地分离数据。

如果数据重叠如此之多,则两者应该属于同一类,但我们知道它们不是。因此,有一些特征或变量将这些数据点分成两类。尝试为数据添加更多功能。

有时,将数据转换为不同的规模会有所帮助。

这两个类不需要均匀分布,因为偏斜数据分布可以单独处理。

首先,你对"好成绩"的标准是什么? 您使用了哪种风格的 SVM? 对于大多数"好"概念来说,简单的线性肯定会失败,但是一个严重复杂的高斯核可能会从图的上部区域中的少数连续点中挖掘出一些东西。

我建议你对你提供的数据运行一些基本的统计数据,看看它们是否真的像你想要的那样可分离。 我建议初学者进行T检验。

如果您有其他维度,我强烈建议您使用它们。 从您可以处理的最大输入量开始,然后从那里减少(主成分分析)。 在我们知道数据的完整形状和分布之前,确定有用算法的希望不大。

也就是说,我会先发制人地建议你在添加其他维度时研究频谱聚类算法。 有些在密度方面很好,有些在连通性方面很好,而另一些则以间隙为关键。

最新更新