从熊猫数据框架中删除异常的有效方法是什么?我有一个熊猫数据框,我需要从数据框架中删除离群点。
X1 X2 X3 X4
228.0 4474.91836735 3507.15151515 6625.0
77.0 468.0 582.0 549.0
160.0 9.0 3507.15151515 6625.0
36.0 250.0 3507.15151515 6625.0
52.0 3.0 3.0 223.0
78.0 998.0 3507.15151515 6625.0
我尝试了链接中的解决方案但是没有删除积分。即使是同样的Sklearn实现也将很有用。
这里确实有两个问题:1)离群值检测,2)将它们从数据帧中删除。
问题#2非常简单。一旦您在列中检测到异常值后,您就可以使用类似的东西:
df = df[df.loc[:,'column_name'] < high_threshold]
df = df[df.loc[:,'column_name'] > low_threshold]
现在,对于#1,离群值检测方法差异很大。如果您只有这四个维度而不是太多数据,则中位绝对偏差方法可能就足够了,而无需Sklearn。
由于我不知道您的应用程序,我将向您指出有关Sklearn中离群值检测的此文档。