我应该保留/删除表示不同对象的相同训练示例吗



我准备了一个数据集来识别某种类型的对象(大约2240个负对象示例,只有大约90个正对象示例)。然而,在为数据集中的每个对象计算10个特征后,唯一训练实例的数量分别降至约130个和30个。

由于相同的训练实例实际上代表不同的对象,我可以说这种重复包含了相关信息(例如对象特征值的分布),这些信息可能以某种方式有用吗?

如果省略重复项,则会使每个不同对象的基本速率发生偏差。如果训练数据是真实世界的代表性样本,那么你不希望这样,因为你实际上是在为一个稍微不同的世界(一个有不同基本费率的世界)进行训练。

为了澄清这一点,考虑一个场景,其中只有两个不同的对象。你的原始数据包含99个对象A和1个对象B。抛出重复数据后,你有1个对象A,1个对象B.在消除重复数据上训练的分类器将与在原始数据上培训的分类器大不相同。

我的建议是把重复的数据留在数据中。

相关内容

  • 没有找到相关文章

最新更新