数据集由4000多条记录组成。在这里,试图识别"duration"属性中的异常。然而,当方框图被淹没时,可以发现它是高度扭曲的。尝试转换数据,但没有得到结果。附上下面的方框图。在这种情况下我们应该如何处理。
方框图
您可以做的是创建绘图的直方图,并尝试在数据上拟合分布。假设您能够在数据上拟合标准正态分布,那么您可以通过检查分布中样本的概率来读取数据中的异常。如果这个概率小于阈值概率p,那么你可以将其标记为异常。
数据集由4000多条记录组成。在这里,试图识别"duration"属性中的异常。然而,当方框图被淹没时,可以发现它是高度扭曲的。尝试转换数据,但没有得到结果。附上下面的方框图。在这种情况下我们应该如何处理。
方框图
您可以做的是创建绘图的直方图,并尝试在数据上拟合分布。假设您能够在数据上拟合标准正态分布,那么您可以通过检查分布中样本的概率来读取数据中的异常。如果这个概率小于阈值概率p,那么你可以将其标记为异常。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium