r语言 - 具有异构变量的客户集的聚类



我有一组具有不同属性的客户连续,分类,二进制和有序。 知道我们无法对这些不同类型的属性应用相同的距离指标,我如何对它们进行聚类? 提前谢谢你

如前所述,菊花包是一个选项,它根据数据类型自动选择最佳距离指标。但我建议采用以下方法,并请专家插话。

而不是自动选择识别并删除一些相关变量,例如(一些示例(
皮尔逊相关:对于连续变量
卡方检验:用于分类变量 分类与数字:单向方差分析测试等

获取有用变量的子集,考虑对分类变量进行 One-Hot 编码,并可能将序数转换为连续(或分类和独热编码(。使用不同的距离度量(如欧几里得、曼哈顿等(进行测试以评估结果。通过这种方式,您将更好地了解整个聚类过程。

最新更新