训练神经网络,其中 N 个训练示例包含相同的属性和分类。例如:
训练示例 1 = [1,1,1,1] ,分类 = [1]
训练示例 2 = [1,1,1,1] ,分类 = [1]
使用"训练示例2"进行训练是在浪费训练时间,因为它对神经网络的整体质量没有贡献?
我认为
,如果它不会对你的学习过程造成太大伤害 - 会把它们留在你的训练集中。这背后的原因说明如下几点:
- 通常 - 神经网络的学习过程具有概率论解释。您正在学习一些条件分发
P(y|x)
。在这种情况下,很明显,您拥有的学习示例越多,您的近似值就越准确。 - 很多时候,您的数据没有功能形式,其中
y = f(x)
.在这种情况下,您需要处理不确定性。在这种情况下,您拥有的示例越多 - 您对预测的把握就越大。 - 在一些评论中,有人说,例如,如果每个示例在数据集中出现两次,那么这可能是多余的。但是,检查您的数据是否来自这种分布是显而易见的,或者计算成本太高而无法检查。所以你不应该关心这个。
最佳做法是较少使用常见训练示例的一个示例是在word2vec中。有关详细信息,请参阅此链接。
https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec