K-均值对标称数据的聚类



我正在对一些不同程度的数据点进行聚类,例如低、中和高。是否建议将它们转换为 low-1、med-2、hig-3 等数字,并直接应用 k 均值,还是应该使用任何其他方法?

我表现得像这样,但并不总是能取得好的结果。有时它给出了非常好的结果,但有时它没有。

K-means在这些数据上没有多大意义。

它专为连续变量而设计。其中命名均值有意义并最小化最小二乘误差

对于分类数据,请改用 k 中心点或 k 模式

此外,您需要仔细考虑变量重要性。

请注意,在分类/离散数据上,优化算法经常陷入局部最优似乎是一个问题:因为没有"连续"路径来改善结果。正因为如此,结果有时是好的,有时是坏的。然后,您可以增加重新启动的次数,但随着复杂性的增加,幸运猜测的机会会降低......

将连续数据转换为离散数据是可以的,只要将其视为离散数据而不是连续数据即可。现在 k 均值基本上仅适用于连续数据。所以我认为,更好的选择是像k-prototypesk-modes这样的算法。其中k-prototype适用于连续数据和分类数据,而 k 模式仅适用于分类数据。

相关内容

  • 没有找到相关文章

最新更新