评估L1和L2类型乘数的值



我有一个简单的问题。当我们使用$L_1$和/或$L_2$类型的正则化项执行梯度下降时,即用

展开损失函数$L$

$$L_r=L+l_1 sum_i| pi_i |+l_2 sum_j ||pi_j||^2$$

为什么在梯度下降的更新规则中不包含$l_1$和$l_2$变量?

这是一个超参数,你不能同时更新权重和这个参数。如果你同时用权重对它进行优化,相对于训练和(或)测试集上的损失函数,是的,这个参数将变为0,惩罚部分将为零。因为当你训练复杂的模型时-它很容易过拟合你的数据集,并完美地预测值,在这种情况下,优化过程可以做的最好的事情就是最小化损失,当模型完美地标记数据集-零这个参数。因此,为防止过拟合而设计的参数将不起任何作用。

但是你可以做网格搜索

最新更新