我需要聚类混合数据(2 列:1 - 数字和 2 - 字符串(。R或python中是否有一个包可以处理混合数据或分类数据的聚类?
谢谢!
对于 R,我建议使用cluster
包中的daisy
函数。
您可以拥有混合数据类型(名义-序数-数字(的matrix
。
如果数据是混合的,它会计算每个变量的gower
距离,基本上每个标称值都转换为数字,并且通过每个变量的贡献的衡量平均值来测量差异。
即使所有变量都是数字,也可以使用它,在这种情况下,它将使用标准指标。
有关详细信息和示例,请参阅帮助页面。
这里介绍一下高尔距离。