聚类分析-聚类分类器和聚类策略

我正在使用mahout中的K-means算法，在调试时，我注意到在创建第一个集群时，它执行以下代码:

ClusteringPolicy policy = new KMeansClusteringPolicy(convergenceDelta);
ClusterClassifier prior = new ClusterClassifier(clusters, policy);
prior.writeToSeqFiles(priorClustersPath);

我正在阅读这些类的描述，它不是很清楚我…

我想知道这些聚类分类器和策略的含义是什么?它是否与分层聚类，基于质心的聚类，基于分布的聚类有关集群等等?

因为我不知道在使用K-means mahout实现时使用这个聚类分类器和策略的好处或原因。

该实现与k-means的其他变体以及类似的算法(如Canopy预聚类和GMM)共享代码。

这些类只编码这些算法之间的差异。

Mahout不是研究k-means算法的好地方，它的实现相当混乱。它也很慢。非常非常慢。大多数情况下，单个CPU实现在任何适合内存的事情上都可以完全击败Mahout。甚至可能在单个机器的磁盘上。因为所有的map-reduce开销

相关内容

最新更新

热门标签：