小贝子编程

如何研究高维数据中异常值的特性

本文关键字：异常何研究高维数据 data-visualization cluster-analysis outliers anomaly-detection
更新时间 : 2023-09-20
英文 : How can I study the properties of outliers in high-dimensional data?

我有一束高维数据，这些实例是否被标记为异常值。我想了解数据中这些异常值的位置我寻求回答以下问题：

异常值是否彼此相距甚远？还是它们聚集在一起
异常值是否位于良好数据集群之间？还是它们处于数据的"边缘"边界
如果将异常值聚集在一起，这些聚类密度如何与良好数据的聚类进行比较
异常值在哪里

什么样的技术可以让我找到这些见解？如果数据是2或3维的，我可以很容易地绘制数据，只需查看即可。但我不能用高维数据。

分析异常值的统计特性

首先，如果您可以选择专注于特定功能。对于例如，如果你知道一个featues的变化很大，你可以绘制方框图。如果您想专注于2个功能。这显示了标记的异常值的变化程度。
接下来，有一个称为Z-score的指标，它基本上说明了许多标准贬值一个点与平均值相比是不同的。这个Z-score是有符号的，这意味着如果一个点低于平均值，Z-score将为负数。这可用于分析数据集。您可以在标记的数据集中找到阈值，对于该阈值以上的所有点都标记为异常值
最后，我们可以找到四分位间距，并进行类似的滤波IQR只是75百分位和25百分位。您也可以使用类似于Z分数。

使用这些技术，我们可以分析异常值的一些统计特性。如果您还想分析集群，可以根据您的问题调整DBSCAN算法。该算法根据密度对数据进行聚类，因此很容易将该技术应用于异常值。

相关内容

最新更新