如何在使用 k 时找到字符串的平均值意味着聚类



我正在尝试使用k-meansLevenshtein distance构建垃圾邮件过滤器(考虑这是强制性的(。当我必须计算每个集群的质心时,我在理解如何计算"字符串"的平均值时遇到问题?

K 均值不能用于字符串。

它通过计算算术平均值来最小化最小二乘。这仅在连续变量上定义(并且有意义(。

在字符串上,您可以使用 PAM aka k-中心点代替。

最新更新