机器学习 - 如何解释 SoftMax 回归中的"soft"和"max"?



我知道softmax回归的形式,但我很好奇为什么它有这样一个名字?还是因为一些历史原因?

两个数字max(x,y)的最大值可能有尖角/陡峭的边缘,这有时是不需要的属性(例如,如果你想计算梯度)。

要软化max(x,y)的边缘,可以使用软化边缘的变体:softmax函数。它的核心仍然是一个max函数(好吧,准确地说,它是它的近似值),但被平滑了。

如果你仍然不清楚,这里有一个很好的阅读。

假设你有一组标量xi,你想计算它们的加权和,给每个xi一个权重wi,使权重之和为1(类似于离散概率)。一种方法是将wi=exp(a*xi)设置为某个正常数a,然后将权重归一化为1。如果a=0,你得到的只是一个常规的样本平均值。另一方面,对于一个非常大的a值,你得到max运算符,也就是说加权和将是最大的xi。因此,改变a的值会给你一个"软",或者从常规平均到选择最大值的持续方式。如果您已经知道SoftMax回归是什么,那么您应该熟悉这个加权平均值的函数形式。

最新更新