在哪些情况下,交叉熵优于均方误差



尽管上述两种方法都为更好的预测接近度提供了更好的分数,但仍然首选交叉熵。是在每种情况下,还是在某些特殊的情况下,我们更喜欢交叉熵而不是MSE?

交叉熵是分类的首选,而均方误差是回归的最佳选择之一。这直接来自于问题本身的陈述——在分类中,你使用的是一组非常特殊的可能输出值,因此MSE的定义很糟糕(因为它没有这种知识,因此会以不兼容的方式惩罚错误)。为了更好地理解这些现象,最好遵循并理解之间的关系

  1. 交叉熵
  2. 逻辑回归(二进制交叉熵)
  3. 线性回归

你会注意到,两者都可以被视为最大似然估计量,只是对因变量有不同的假设。

当你从概率和分布的角度推导成本函数时,你可以观察到当你假设误差遵循正态分布时会发生MSE,当你假设二项式分布时会出现交叉熵。这意味着,当你使用MSE时,你在做回归(估计),而当你使用CE时,你正在做分类。希望它能帮上一点忙。

例如,如果你进行逻辑回归,你将使用sigmoid函数来估计概率,交叉熵作为损失函数,梯度下降将其最小化。这样做,但使用MSE作为损失函数可能会导致非凸问题,在那里你可能会找到局部极小值。使用交叉熵会导致一个凸问题,在那里你可能会找到最优解。

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYwbhPCdizqNKps69W4Z&索引=35

这里还有一个有趣的分析:https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/

最新更新