集群之间的距离意味着 sklearn python

我正在使用sklearn的k-means聚类来聚类我的数据。现在我想获得集群之间的距离，但找不到它。我可以计算每个质心之间的距离，但想知道是否有函数可以获取它，以及是否有办法获取每个聚类之间的最小/最大/平均链接距离。我的代码非常简单：

km = KMeans(n_clusters = 5, random_state = 1)
km.fit(X_tfidf )
clusterkm = km.cluster_centers_
clusters = km.labels_.tolist()

谢谢！

不幸的是，您将不得不自己计算集群中心上的这些距离。Scikit没有提供开箱即用的方法。下面是一个类似的问题设置：

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import euclidean_distances
X, y = load_iris(return_X_y=True)
km = KMeans(n_clusters = 5, random_state = 1).fit(X)

以及如何计算距离：

dists = euclidean_distances(km.cluster_centers_)

然后，要获得您感兴趣的统计数据，您只需要在距离矩阵的上角(或下三角角(进行计算：

import numpy as np
tri_dists = dists[np.triu_indices(5, 1)]
max_dist, avg_dist, min_dist = tri_dists.max(), tri_dists.mean(), tri_dists.min()

km.inertia_是sklearn的度量 KMeans是平方距离的总和。

来自SKlearn网站： inertia_：浮子样本到其最近聚类中心的平方距离之和，如果提供，则按样本权重加权。 https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

相关内容

最新更新

热门标签：