小贝子编程

Mahout k的意思是集群命令:面对堆空间问题

我正试图在仅包含数值的300MB数据集上使用mahout执行k-means聚类。但是在第二次迭代之后，我在k-means命令中的内存用完了。为什么每次迭代后大小都会增加？如何解决此问题？

不要对小数据集使用Mahout。只是不要

300 MB可轻松放入任何现代计算机的主存储器。内存中的实现（可能尝试ELKI）将轻松地优于Mahout，因为它没有Map Reduce的开销。

Hadoop不是一个一刀切的解决方案。这是超大规模的解决方案，您没有超大规模的数据。

你有没有可能使用的不是真正的集群，而是虚拟机？您可能分配的磁盘空间或内存太小，或者您的集群配置不好。

相关内容