我目前正在研究文档聚类。我想在我的数据集(文本文档)上运行Java中的Bisecting KMean。有人能提供同样的代码吗。最后的运行将在Hadoop中使用MapReduce。
谢谢。
您是否在Mahout或Spark MLLib中查找过编写集群算法?这些是Hadoop上机器学习的实际行业标准。这两个库都有K-Means(以及许多其他库),但都没有发布版本的Bisising K-Means。Github中的Spark项目上打开了一个层次K-Means(Spark-2429)的拉取请求(不确定这是否与Bisecting K-Means相同)。
我想说的另一点是让你考虑Spark而不是MapReduce。对于像K-Means这样的迭代算法,Spark的性能要高得多。