聚类分析-聚类分类器和聚类策略



我正在使用mahout中的K-means算法,在调试时,我注意到在创建第一个集群时,它执行以下代码:

ClusteringPolicy policy = new KMeansClusteringPolicy(convergenceDelta);
ClusterClassifier prior = new ClusterClassifier(clusters, policy);
prior.writeToSeqFiles(priorClustersPath); 

我正在阅读这些类的描述,它不是很清楚我…

我想知道这些聚类分类器和策略的含义是什么?它是否与分层聚类,基于质心的聚类,基于分布的聚类有关集群等等?

因为我不知道在使用K-means mahout实现时使用这个聚类分类器和策略的好处或原因。

该实现与k-means的其他变体以及类似的算法(如Canopy预聚类和GMM)共享代码。

这些类只编码这些算法之间的差异。

Mahout不是研究k-means算法的好地方,它的实现相当混乱。它也很慢。非常非常慢。大多数情况下,单个CPU实现在任何适合内存的事情上都可以完全击败Mahout。甚至可能在单个机器的磁盘上。因为所有的map-reduce开销

最新更新