如何用现有的K-means模型分割新数据



我已经使用k-means聚类建立了一个分割模型。

有人能描述一下将新数据分配到这些细分市场的过程吗?

目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧氏距离。最小距离是记录所处的段。

但是,我看到大多数人都属于一个特定的细分市场,我想知道在这一过程中我是否错过了什么?

感谢

根据到最近均值的欧氏距离对新观测进行分类可能适用于某些情况,但它忽略了原始聚类的形状/大小。

解决这一问题的一种方法是使用原始聚类数据来帮助对每个新的观测进行分类(例如,使用KNNhttp://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)

作为一种替代方案,您可以考虑使用另一种聚类技术,例如Mixed of Gaussians:
http://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/mixture.html

使用它,您不仅可以得到每个聚类的平均值,还可以得到方差。对于每个新的观测,您可以计算它属于每个集群的概率。该概率将考虑原始簇的大小/形状。使用类型类型的"软"方法也更好,因为它可以告诉每个新观测值属于每个聚类的强度,并且可以将观测值标记为异常值,这些异常值大于所有聚类的一些标准偏差。

最新更新