从PANDAS DataFrame中删除离群行



从熊猫数据框架中删除异常的有效方法是什么?我有一个熊猫数据框,我需要从数据框架中删除离群点。

 X1       X2              X3              X4
228.0   4474.91836735   3507.15151515   6625.0
77.0    468.0           582.0           549.0
160.0   9.0             3507.15151515   6625.0
36.0    250.0           3507.15151515   6625.0
52.0    3.0             3.0             223.0
78.0    998.0           3507.15151515   6625.0

我尝试了链接中的解决方案但是没有删除积分。即使是同样的Sklearn实现也将很有用。

这里确实有两个问题:1)离群值检测,2)将它们从数据帧中删除。

问题#2非常简单。一旦您在列中检测到异常值后,您就可以使用类似的东西:

df = df[df.loc[:,'column_name'] < high_threshold]
df = df[df.loc[:,'column_name'] > low_threshold]

现在,对于#1,离群值检测方法差异很大。如果您只有这四个维度而不是太多数据,则中位绝对偏差方法可能就足够了,而无需Sklearn。

由于我不知道您的应用程序,我将向您指出有关Sklearn中离群值检测的此文档。

相关内容

  • 没有找到相关文章

最新更新