决策树.噪声策略



在决策树中打击噪音的好策略是什么?

在我的培训数据中,

我有两个具有相同属性的记录,但它们给出了不同的分类。

  1. 女,豪华,LV,是
  2. 女,豪华,LV,否

根据我的阅读,它说要返回这两个记录的复数分类。

,但是当我想进行预测时,这会引起问题,因为我的预测的输出应该是是或否。

因此,试图找出我可以在这种情况下可以使用什么策略来预测。

谢谢。

当类预测不确定时:

  1. 最简单(和常见的)方法是预测多数类
  2. 获取更多信息。例如,包括其他属性(如果有)或获得更多培训样本(如果有)。
  3. 删除一些信息。目的是消除尽可能多的噪声来源,同时尽可能保留预测信息。通常,它是通过删除无用属性来完成的。在树的情况下,可以通过修剪来完成。最终,您可以删除异常值(例如错误测量的样本),但是您必须知道哪个样本是异常值。

最新更新