稀疏数据集上的光谱聚类



我正在对具有相当多相对稀疏特征的数据集应用光谱聚类(sklearn.cluster.SpectralClustering)。在 Python 中进行频谱聚类时,我收到以下警告:

UserWarning: Graph is not fully connected, spectral embedding may not work as expected. warnings.warn("Graph is not fully connected, spectral embedding"

这通常伴随着这样的错误:

`
File "****.py", line 120, in perform_clustering_spectral_clustering
  predicted_clusters = cluster.SpectralClustering(n_clusters=n).fit_predict(features)
File "****sklearnbase.py", line 349, in fit_predict
  self.fit(X)
File "****sklearnclusterspectral.py", line 450, in fit
  assign_labels=self.assign_labels)
File "****sklearnclusterspectral.py", line 256, in spectral_clustering
  eigen_tol=eigen_tol, drop_first=False)
File "****sklearnmanifoldspectral_embedding_.py", line 297, in spectral_embedding
  largest=False, maxiter=2000)
File "****scipysparselinalgeigenlobpcglobpcg.py", line 462, in lobpcg
  activeBlockVectorBP, retInvR=True)
File "****scipysparselinalgeigenlobpcglobpcg.py", line 112, in _b_orthonormalize
  gramVBV = cholesky(gramVBV)
File "****scipylinalgdecomp_cholesky.py", line 81, in cholesky
  check_finite=check_finite)
File "****scipylinalgdecomp_cholesky.py", line 30, in _cholesky
  raise LinAlgError("%d-th leading minor not positive definite" % info)
numpy.linalg.linalg.LinAlgError: 9-th leading minor not positive definite
numpy.linalg.linalg.LinAlgError: 9-th leading minor not positive definite
numpy.linalg.linalg.LinAlgError: the leading minor of order 12 of 'b' is not positive definite. The factorization of 'b' could not be completed and no eigenvalues or eigenvectors were computed.`

但是,当使用相同的设置时,此警告/错误并不总是发生(即其行为不是非常一致,因此难以测试)。它发生在不同的n_clusters值上,但它更常发生在值 n=2 和 n> 7 上(这至少是我的简短经验;正如我提到的,它的行为不是很一致)。

我应该如何处理此警告和相关错误?这是否取决于功能的数量?如果我添加更多怎么办?

我在n_clusters也遇到了这个问题。由于这是无监督的 ML,因此n_clusters没有一个正确的值。在您的情况下,似乎n_cluster介于 3 和 7 之间。假设您对聚类有一些基本事实,最好的处理方法是尝试几个n_cluster值,以查看给定数据集是否出现任何模式,同时确保避免任何过度拟合。您也可以使用轮廓系数 (sklearn.metrics.silhouette_score)

相关内容

  • 没有找到相关文章