为什么我们需要在辍学期间预先"expected output"?



我很困惑,为什么在执行丢弃正则化时需要保留预期输出的值。为什么层l的输出平均值在训练和测试阶段不同很重要?丢弃后非零的权重只是其自身的一个略微缩放的值,它如何影响神经网络的决策能力?

根据这个问题下的一条评论,它说如果不缩放,输出层sigmoid可能会将值解释为0而不是1。但不管怎样,体重下降并没有什么作用。

请投一些光,我无法看到概念的全貌。

找到了答案,这是由吴恩达的演讲视频提供的。我们基本上保留了应用丢弃的激活的预期输出的值,这样它就不会影响成本的结果,并且它保持与没有丢弃的预期值相同。因此,我们缩放值并展开权重。

相关内容

  • 没有找到相关文章

最新更新