如何处理高度偏斜的数据-熊猫数据帧



数据集由4000多条记录组成。在这里,试图识别"duration"属性中的异常。然而,当方框图被淹没时,可以发现它是高度扭曲的。尝试转换数据,但没有得到结果。附上下面的方框图。在这种情况下我们应该如何处理。

方框图

您可以做的是创建绘图的直方图,并尝试在数据上拟合分布。假设您能够在数据上拟合标准正态分布,那么您可以通过检查分布中样本的概率来读取数据中的异常。如果这个概率小于阈值概率p,那么你可以将其标记为异常。

最新更新