对于低密度差异的多维数据,哪种聚类算法是最好的



我目前正在做一个项目,希望对多维数据进行集群。我尝试了K-Means聚类和DBSCAN聚类,这两种算法完全不同。

K-Means模型返回了相当好的输出,它返回了5个聚类,但我读到当维度很大时,欧几里得距离会失败,所以我不知道我是否可以信任这个模型。

在尝试DBSCAN模型时,该模型生成了许多噪声点,并将许多点聚集在一个簇中。我尝试了KNN-dist图方法来找到模型的最佳eps,但我似乎无法使模型工作。这导致了我的结论,也许绘制的点的密度非常高,也许这就是我在一个簇中得到很多点的原因。

对于集群,我使用了10列不同的数据我应该更改我正在使用的算法吗?对于密度变化较小的多维数据,什么是更好的算法

您可以首先使用PCA/LDA/t-sne或自动编码器对数据集进行降维。然后运行standart一些聚类算法。

另一种方法是可以使用高级的深度聚类方法。这篇博客文章非常好地解释了他们如何在高维数据集上应用深度聚类。

也许这为您提供了一些灵感:Scikit学习聚类算法我建议你试试。希望能有所帮助!

最新更新