使用相同的训练示例训练神经网络是否不好

训练神经网络，其中 N 个训练示例包含相同的属性和分类。例如：

训练示例 1 = [1,1,1,1] ，分类 = [1]

训练示例 2 = [1,1,1,1] ，分类 = [1]

使用"训练示例2"进行训练是在浪费训练时间，因为它对神经网络的整体质量没有贡献？

我认为

，如果它不会对你的学习过程造成太大伤害 - 会把它们留在你的训练集中。这背后的原因说明如下几点：

通常 - 神经网络的学习过程具有概率论解释。您正在学习一些条件分发P(y|x)。在这种情况下，很明显，您拥有的学习示例越多，您的近似值就越准确。
很多时候，您的数据没有功能形式，其中y = f(x).在这种情况下，您需要处理不确定性。在这种情况下，您拥有的示例越多 - 您对预测的把握就越大。
在一些评论中，有人说，例如，如果每个示例在数据集中出现两次，那么这可能是多余的。但是，检查您的数据是否来自这种分布是显而易见的，或者计算成本太高而无法检查。所以你不应该关心这个。

最佳做法是较少使用常见训练示例的一个示例是在word2vec中。有关详细信息，请参阅此链接。

https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec

相关内容