机器学习和m-估计

我正在处理一个机器学习问题，我的数据中有一些异常值，希望对它们进行平滑处理。我读到一些关于使用m-估计来解决这样的问题的文章。我已经在Web和stackoverflow上进行了详尽的搜索，但找不到一个好的例子。有人能给我推荐一些资源，让我可以阅读更多关于这个主题的内容吗？

谢谢！

如果我记得很清楚的话，M-估计器源于Huber的工作。他研究了使估计器具有鲁棒性的方法。然而，为了衡量稳健性，考虑了一种非常特殊的稳健性类型。它被称为"分解点"，简单地说就是异常值与该方法可以处理的总点数的百分比。再多一个异常值，它就会崩溃。

注意，这种类型的鲁棒性与计算机视觉中的鲁棒性有很大不同。在计算机视觉中，异常值可能不多，但它们可能会协同（以结构化点的形式）分解最稳健的估计量。因此，在计算机视觉中，你会遇到霍夫变换和RANSAC来执行线的稳健估计。

此外，一种对异常值非常有弹性的M-估计量是一种M-估计量，它限制了分配给极端异常值的值。这些就是所谓的重新分解M-估计量。它们确实是稳健的，因为被称为gross outliers的极端异常值被赋予了零权重，或者换句话说，在回归中根本没有考虑到这一点。

如果你想知道单个异常值的影响，我挑战你写一个简单的线性最小二乘倍频程程序。或者，如果你认为这更容易，可以使用一个总最小二乘程序（你只需要进行奇异值分解，svd是内置的）。

相关内容