在决策树中打击噪音的好策略是什么?
在我的培训数据中,
我有两个具有相同属性的记录,但它们给出了不同的分类。
- 女,豪华,LV,是
- 女,豪华,LV,否
根据我的阅读,它说要返回这两个记录的复数分类。
,但是当我想进行预测时,这会引起问题,因为我的预测的输出应该是是或否。
因此,试图找出我可以在这种情况下可以使用什么策略来预测。
谢谢。
当类预测不确定时:
- 最简单(和常见的)方法是预测多数类。
- 获取更多信息。例如,包括其他属性(如果有)或获得更多培训样本(如果有)。
- 删除一些信息。目的是消除尽可能多的噪声来源,同时尽可能保留预测信息。通常,它是通过删除无用属性来完成的。在树的情况下,可以通过修剪来完成。最终,您可以删除异常值(例如错误测量的样本),但是您必须知道哪个样本是异常值。