Mahout k的意思是集群命令:面对堆空间问题



我正试图在仅包含数值的300MB数据集上使用mahout执行k-means聚类。但是在第二次迭代之后,我在k-means命令中的内存用完了。为什么每次迭代后大小都会增加?如何解决此问题?

不要对小数据集使用Mahout。只是不要

300 MB可轻松放入任何现代计算机的主存储器。内存中的实现(可能尝试ELKI)将轻松地优于Mahout,因为它没有Map Reduce的开销。

Hadoop不是一个一刀切的解决方案。这是超大规模的解决方案,您没有超大规模的数据。

你有没有可能使用的不是真正的集群,而是虚拟机?您可能分配的磁盘空间或内存太小,或者您的集群配置不好。

最新更新