更新渐变下降的方程式

如果我们有一个近似函数y=f（w，x），其中x是输入，y是输出，w是权重。根据梯度下降规则，我们应该根据w=w-df/dw来更新权重。但是，我们有可能根据w=w-w*df/dw来更新权重吗？以前有人见过这个吗？我之所以想这样做，是因为在我的算法中，这样做对我来说更容易。

回想一下，梯度下降是基于f（w，x）在w附近的泰勒展开，并且在中有其目的——在您的上下文中——以小步骤重复修改权重。反向梯度方向只是基于函数f（w，x）的非常局部的知识的搜索方向。

通常，权重的迭代包括步长，产生表达式

w_(i+1) = w_(i) - nu_j df/dw,

其中步长nu_j的值是通过使用行搜索找到的，参见例如。https://en.wikipedia.org/wiki/Line_search.

因此，根据以上讨论，回答您的问题：不，根据更新不是一个好主意

w_(i+1) = w_(i) - w_(i) df/dw.

为什么？如果w_（i）很大（在上下文中），我们将基于非常局部的信息迈出一大步，并且我们将使用与精细阶梯梯度下降方法非常不同的方法。

此外，正如lejlot在下面的评论中指出的那样，w（i）的负值意味着你沿着梯度的（正）方向遍历，即沿着函数增长最快的方向遍历，这在局部上是最糟糕的搜索方向（对于最小化问题）。

相关内容