如何计算聚类后每个聚类的平均值



这里我对一个数据进行了聚类,并获得了关于标签的数组:

player_playoffs_career_data_label = AgglomerativeClustering(n_clusters=50).fit_predict(player_playoffs_career_data)
print(player_playoffs_career_data_label)
[24 31  7 ... 30 30 30]

然后我如何计算每个聚类的平均值(也许只是计算每个聚类中心点的平均值(。我指的是如何选择每个聚类的中心点并计算其平均值。

在那之后,我如何获得关于出现在具有最高平均值的聚类中的点的行号的数字。

关于原始数据(player_playoffs_reer_data(:

[[  17  106   38 ...    4    2    0] 
[ 237 8851 5762 ... 1419 1050    4] 
[  15  415  195 ...   45   43   49] 
...
[   3    9    2 ...    1    0    0] 
[  15   67   26 ...    7    2    0] 
[   1    1    0 ...    0    0    0]]

谢谢你的回答。

假设您使用的是K-means,您应该遵循以下步骤-

  1. 选择K个随机点(您可以检查Elbow方法以找到一个好的K值(

  2. 选择这K个随机点后,可以计算出每个数据点与这K个聚类中心的欧氏距离

  3. 将数据点分配给距离它最小的集群。

  4. 现在,您可以清楚地告诉您的K clusters,计算集群内元素的平均值,这将是您的new cluster center

  5. 重复以上步骤,直到集群元素的成员身份没有显著变化。

最新更新