VGG特征的K-means聚类不起作用



我有一个大小为37759x4096的多维数组。37759是特征观测的数量,并且每个特征的大小为4096。

这些特征是我为37759英寸提取的图像的vgg特征。我想执行k-means聚类,看看它们是否会在相同的类中分组。

代码片段:

from sklearn.cluster import KMeans
import numpy as np
features = np.asarray(features) #converting list to features
kmeans = KMeans(n_clusters=17).fit(features)

输出:

In [26]: kmeans.labels_
Out[26]: array([ 0,  0,  0, ..., 11, 11, 11], dtype=int32)
In [27]: len(kmeans.labels_)
Out[27]: 37759
In [28]: kmeans.cluster_centers_
Out[28]: 
array([[  2.46095985e-01,  -4.32133675e-07,   6.41381502e-01, ...,
9.16770659e-09,   2.39292532e-03,   9.38249767e-01],
[  1.18244767e+00,   8.83443374e-03,   8.44059408e-01, ...,
6.17001206e-09,   7.23063201e-03,   4.57734227e-01],
[  5.05003333e-01,   2.45869160e-07,   1.07537758e+00, ...,
-4.24915925e-09,   2.19564766e-01,   6.04652226e-01],
..., 
[  2.72164375e-01,   7.94929452e-03,   8.18695068e-01, ...,
-3.43425199e-09,   7.62813538e-03,   2.84249210e+00],
[  1.03947210e+00,   1.03959814e-04,   7.81472027e-01, ...,
7.42147677e-09,   1.28777415e-01,   8.22515607e-01],
[  1.55310243e-01,   6.24559261e-02,   7.55328536e-01, ...,
-3.84170562e-09,   2.09998786e-02,   4.18608427e-01]], dtype=float32)

首先,由于这是一个高维数据,我不确定k-means是否是最好的方法。它只分类了11个聚类,而不是17个。但不管怎样,

  1. 我们如何确保它是按行(根据样本观察)而不是按列(特征)对阵列进行聚类
  2. 同一类的特征堆叠在一起,但我们可以看到,在kmeans.cluster_centers_中,簇中心非常不同,从前三个阵列推断
  3. 如何将这些数据可视化?如何查找唯一数组
  4. 你有关于如何对这样的高维数据进行聚类的线索吗

kmean中的集群可能会变空,从而消失。

如果发生这种情况,最初的中心选择不当,结果往往不"稳定"。如果你尝试不同的初始种子,你可能会得到非常不同的结果。

对这些数据进行聚类和可视化是很困难的,而且你不会找到一个简单的开箱即用的解决方案。

相关内容

  • 没有找到相关文章

最新更新