更新渐变下降的方程式



如果我们有一个近似函数y=f(w,x),其中x是输入,y是输出,w是权重。根据梯度下降规则,我们应该根据w=w-df/dw来更新权重。但是,我们有可能根据w=w-w*df/dw来更新权重吗?以前有人见过这个吗?我之所以想这样做,是因为在我的算法中,这样做对我来说更容易。

回想一下,梯度下降是基于f(w,x)在w附近的泰勒展开,并且在中有其目的——在您的上下文中——以小步骤重复修改权重。反向梯度方向只是基于函数f(w,x)的非常局部的知识的搜索方向。

通常,权重的迭代包括步长,产生表达式

w_(i+1) = w_(i) - nu_j df/dw,

其中步长nu_j的值是通过使用行搜索找到的,参见例如。https://en.wikipedia.org/wiki/Line_search.

因此,根据以上讨论,回答您的问题:不,根据更新不是一个好主意

w_(i+1) = w_(i) - w_(i) df/dw.

为什么?如果w_(i)很大(在上下文中),我们将基于非常局部的信息迈出一大步,并且我们将使用与精细阶梯梯度下降方法非常不同的方法。

此外,正如lejlot在下面的评论中指出的那样,w(i)的负值意味着你沿着梯度的(正)方向遍历,即沿着函数增长最快的方向遍历,这在局部上是最糟糕的搜索方向(对于最小化问题)。

最新更新