我想在生产部署中使用scikit kmean,并希望使用kmean.init = k-means++的默认设置。我的问题是,kmeans在初始化集群质心时落入局部最优的可能性有多大?
Notes说:"'k-means++':以智能的方式选择初始聚类中心进行k均值聚类,以加快收敛速度。有关更多详细信息,请参阅k_init中的注释部分"。
是否有关于获得局部最优概率的数据?如果是这样,我应该迭代以获得最小成本函数吗?
陷入局部最优的概率,主要取决于数据的性质。如果显式分组,则初始聚类可能不会对最终聚类结果产生太大影响。可能对你有用。
尽管有上述几点,但对于高维数据集,最好尝试使用不同的初始集群进行 10 次或更多次迭代,并选择性能最佳的一个(性能指标之一可能是轮廓系数)