使用相同的训练示例训练神经网络是否不好

  • 本文关键字:神经网络 是否 neural-network
  • 更新时间 :
  • 英文 :


训练神经网络,其中 N 个训练示例包含相同的属性和分类。例如:

训练示例 1 = [1,1,1,1] ,分类 = [1]

训练示例 2 = [1,1,1,1] ,分类 = [1]

使用"训练示例2"进行训练是在浪费训练时间,因为它对神经网络的整体质量没有贡献?

我认为

,如果它不会对你的学习过程造成太大伤害 - 会把它们留在你的训练集中。这背后的原因说明如下几点:

  1. 通常 - 神经网络的学习过程具有概率论解释。您正在学习一些条件分发P(y|x)。在这种情况下,很明显,您拥有的学习示例越多,您的近似值就越准确。
  2. 很多时候,您的数据没有功能形式,其中y = f(x).在这种情况下,您需要处理不确定性。在这种情况下,您拥有的示例越多 - 您对预测的把握就越大。
  3. 在一些评论中,有人说,例如,如果每个示例在数据集中出现两次,那么这可能是多余的。但是,检查您的数据是否来自这种分布是显而易见的,或者计算成本太高而无法检查。所以你不应该关心这个。

最佳做法是较少使用常见训练示例的一个示例是在word2vec中。有关详细信息,请参阅此链接。

https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec