kmean聚类:变量选择

我正在应用kmean算法对我的客户群进行聚类。在模型中要包含的维度（变量）的选择过程中，我在概念上很吃力。我想知道是否有方法可以在具有不同变量的模型之间进行比较。特别是，我想使用常见的内部/外部比率，但我不确定这是否可以用于比较不同维度的模型。。。有什么建议>？非常感谢。

经典方法是顺序选择算法，如"顺序浮动前向选择"（SFFS）或"顺序浮动后向消除"（SFBS）。这些是启发式方法，您可以根据性能指标一次消除（或添加）一个特征，例如均方误差（MSE）。此外，如果您愿意，还可以使用遗传算法。

以下是一篇简单易懂的论文，总结了以下观点：从海量特征集中选择特征

还有一个更先进的可能有用的方法：k-means聚类问题的无监督特征选择

编辑：当我再次思考时，我最初想到的问题是"我如何选择k（一个固定的数字）最佳特征（其中k<d）"，例如，出于计算效率或可视化目的。现在，我认为你问的问题更像是"什么是总体表现最好的特征子集？"轮廓指数（聚类内点的相似性）可能很有用，但我真的不认为你真的可以通过特征选择来提高性能，除非你有基本事实标签。

我不得不承认，我对有监督的方法比无监督的方法更有经验。因此，在解决"维度诅咒"时，我通常更喜欢正则化而不是特征选择/降维。不过，我经常使用降维来进行数据压缩。

相关内容

最新更新

热门标签：