逻辑回归中成本函数的局部和全局最小值



我误解了逻辑回归公式推导中最小值背后的思想。

这个想法是尽可能地增加假设(即正确的预测概率尽可能接近1),这反过来又需要尽可能地最小化成本函数$J(theta)$。

现在我已经被告知,要使这一切都起作用,代价函数必须是凸的。我对凸性的理解要求没有最大值,因此只能有一个最小值,即全局最小值。这是真的吗?如果不是,请解释原因。同样,如果不是这样,那么这就意味着成本函数中存在多个极小值的可能性,意味着多个参数集产生越来越高的概率。这可能吗?或者我可以确定返回的参数是指全局最小值,因此是最高概率/预测?

使用凸代价函数并不能保证是凸问题

凸代价函数和凸方法是有区别的。

你遇到的典型成本函数(交叉熵、绝对损失、最小二乘)被设计成凸的。

然而,问题的凹凸性也取决于你使用的ML算法的类型。

线性算法(线性回归,逻辑回归等)会给你凸解,也就是说它们会收敛。然而,当使用带有隐藏层的神经网络时,你不再保证得到一个凸解。

因此,凹凸性是描述你的方法的一个度量,而不仅仅是你的成本函数!

LR是一种线性分类方法,所以每次使用它都应该得到一个凸优化问题!然而,如果数据不是线性可分的,它可能不会给出一个解在这种情况下,它肯定不会给你一个好的解。

是的,逻辑回归和线性回归旨在找到权重和偏差,以提高模型的准确性(或者说在测试数据或现实世界数据上以更高的概率工作得很好)。为了实现这一目标,我们试图找到权重和偏差,使预测结果与实际结果之间的偏差(比如成本)最小。所以,如果我们画出成本函数并找到它的最小值,就能达到同样的目的。因此,我们使用的模型,其成本函数将有一个局部最小值(即模型应该是凸的)

最新更新