这里我对一个数据进行了聚类,并获得了关于标签的数组:
player_playoffs_career_data_label = AgglomerativeClustering(n_clusters=50).fit_predict(player_playoffs_career_data)
print(player_playoffs_career_data_label)
[24 31 7 ... 30 30 30]
然后我如何计算每个聚类的平均值(也许只是计算每个聚类中心点的平均值(。我指的是如何选择每个聚类的中心点并计算其平均值。
在那之后,我如何获得关于出现在具有最高平均值的聚类中的点的行号的数字。
关于原始数据(player_playoffs_reer_data(:
[[ 17 106 38 ... 4 2 0]
[ 237 8851 5762 ... 1419 1050 4]
[ 15 415 195 ... 45 43 49]
...
[ 3 9 2 ... 1 0 0]
[ 15 67 26 ... 7 2 0]
[ 1 1 0 ... 0 0 0]]
谢谢你的回答。
假设您使用的是K-means
,您应该遵循以下步骤-
-
选择K个随机点(您可以检查Elbow方法以找到一个好的K值(
-
选择这K个随机点后,可以计算出每个数据点与这K个聚类中心的欧氏距离
-
将数据点分配给距离它最小的集群。
-
现在,您可以清楚地告诉您的
K clusters
,计算集群内元素的平均值,这将是您的new cluster center
。 -
重复以上步骤,直到集群元素的成员身份没有显著变化。