我知道softmax回归的形式,但我很好奇为什么它有这样一个名字?还是因为一些历史原因?
两个数字max(x,y)
的最大值可能有尖角/陡峭的边缘,这有时是不需要的属性(例如,如果你想计算梯度)。
要软化max(x,y)
的边缘,可以使用软化边缘的变体:softmax函数。它的核心仍然是一个max函数(好吧,准确地说,它是它的近似值),但被平滑了。
如果你仍然不清楚,这里有一个很好的阅读。
假设你有一组标量xi
,你想计算它们的加权和,给每个xi
一个权重wi
,使权重之和为1(类似于离散概率)。一种方法是将wi=exp(a*xi)
设置为某个正常数a
,然后将权重归一化为1。如果a=0
,你得到的只是一个常规的样本平均值。另一方面,对于一个非常大的a
值,你得到max
运算符,也就是说加权和将是最大的xi
。因此,改变a
的值会给你一个"软",或者从常规平均到选择最大值的持续方式。如果您已经知道SoftMax回归是什么,那么您应该熟悉这个加权平均值的函数形式。