小贝子编程

如何在使用 sklearn Kmeans 时避免 Kmean 局部最优

我想在生产部署中使用scikit kmean，并希望使用kmean.init = k-means++的默认设置。我的问题是，kmeans在初始化集群质心时落入局部最优的可能性有多大？

Notes说："'k-means++'：以智能的方式选择初始聚类中心进行k均值聚类，以加快收敛速度。有关更多详细信息，请参阅k_init中的注释部分"。

是否有关于获得局部最优概率的数据？如果是这样，我应该迭代以获得最小成本函数吗？

陷入局部最优的概率，主要取决于数据的性质。如果显式分组，则初始聚类可能不会对最终聚类结果产生太大影响。可能对你有用。

尽管有上述几点，但对于高维数据集，最好尝试使用不同的初始集群进行 10 次或更多次迭代，并选择性能最佳的一个（性能指标之一可能是轮廓系数）

相关内容