如何研究高维数据中异常值的特性



我有一束高维数据,这些实例是否被标记为异常值。我想了解数据中这些异常值的位置我寻求回答以下问题:

  1. 异常值是否彼此相距甚远?还是它们聚集在一起
  2. 异常值是否位于良好数据集群之间?还是它们处于数据的"边缘"边界
  3. 如果将异常值聚集在一起,这些聚类密度如何与良好数据的聚类进行比较
  4. 异常值在哪里

什么样的技术可以让我找到这些见解?如果数据是2或3维的,我可以很容易地绘制数据,只需查看即可。但我不能用高维数据。

分析异常值的统计特性

  • 首先,如果您可以选择专注于特定功能。对于例如,如果你知道一个featues的变化很大,你可以绘制方框图。如果您想专注于2个功能。这显示了标记的异常值的变化程度。

  • 接下来,有一个称为Z-score的指标,它基本上说明了许多标准贬值一个点与平均值相比是不同的。这个Z-score是有符号的,这意味着如果一个点低于平均值,Z-score将为负数。这可用于分析数据集。您可以在标记的数据集中找到阈值,对于该阈值以上的所有点都标记为异常值

  • 最后,我们可以找到四分位间距,并进行类似的滤波IQR只是75百分位和25百分位。您也可以使用类似于Z分数。

使用这些技术,我们可以分析异常值的一些统计特性。如果您还想分析集群,可以根据您的问题调整DBSCAN算法。该算法根据密度对数据进行聚类,因此很容易将该技术应用于异常值。

最新更新