机器学习和m-估计



我正在处理一个机器学习问题,我的数据中有一些异常值,希望对它们进行平滑处理。我读到一些关于使用m-估计来解决这样的问题的文章。我已经在Web和stackoverflow上进行了详尽的搜索,但找不到一个好的例子。有人能给我推荐一些资源,让我可以阅读更多关于这个主题的内容吗?

谢谢!

如果我记得很清楚的话,M-估计器源于Huber的工作。他研究了使估计器具有鲁棒性的方法。然而,为了衡量稳健性,考虑了一种非常特殊的稳健性类型。它被称为"分解点",简单地说就是异常值与该方法可以处理的总点数的百分比。再多一个异常值,它就会崩溃。

注意,这种类型的鲁棒性与计算机视觉中的鲁棒性有很大不同。在计算机视觉中,异常值可能不多,但它们可能会协同(以结构化点的形式)分解最稳健的估计量。因此,在计算机视觉中,你会遇到霍夫变换和RANSAC来执行线的稳健估计。

此外,一种对异常值非常有弹性的M-估计量是一种M-估计量,它限制了分配给极端异常值的值。这些就是所谓的重新分解M-估计量。它们确实是稳健的,因为被称为gross outliers的极端异常值被赋予了零权重,或者换句话说,在回归中根本没有考虑到这一点。

如果你想知道单个异常值的影响,我挑战你写一个简单的线性最小二乘倍频程程序。或者,如果你认为这更容易,可以使用一个总最小二乘程序(你只需要进行奇异值分解,svd是内置的)。

最新更新