kmean聚类:变量选择



我正在应用kmean算法对我的客户群进行聚类。在模型中要包含的维度(变量)的选择过程中,我在概念上很吃力。我想知道是否有方法可以在具有不同变量的模型之间进行比较。特别是,我想使用常见的内部/外部比率,但我不确定这是否可以用于比较不同维度的模型。。。有什么建议>?非常感谢。

经典方法是顺序选择算法,如"顺序浮动前向选择"(SFFS)或"顺序浮动后向消除"(SFBS)。这些是启发式方法,您可以根据性能指标一次消除(或添加)一个特征,例如均方误差(MSE)。此外,如果您愿意,还可以使用遗传算法。

以下是一篇简单易懂的论文,总结了以下观点:从海量特征集中选择特征

还有一个更先进的可能有用的方法:k-means聚类问题的无监督特征选择

编辑:当我再次思考时,我最初想到的问题是"我如何选择k(一个固定的数字)最佳特征(其中k<d)",例如,出于计算效率或可视化目的。现在,我认为你问的问题更像是"什么是总体表现最好的特征子集?"轮廓指数(聚类内点的相似性)可能很有用,但我真的不认为你真的可以通过特征选择来提高性能,除非你有基本事实标签。

我不得不承认,我对有监督的方法比无监督的方法更有经验。因此,在解决"维度诅咒"时,我通常更喜欢正则化而不是特征选择/降维。不过,我经常使用降维来进行数据压缩。

最新更新