r语言 - 多核计算与rha - r - Multicore computing with Rhadoop 小贝子编程网

我试着用rha(R和hadoop之间的链接)计算一些东西。

当我用Hadoop-1.0.4中的嵌入式示例对我的集群进行基准测试时，它看起来运行良好。(我的意思是所有从节点的核心都工作，尽管cpu使用率在50%和100%之间波动)

然而，当我应用一个rha的例子时，情况并非如此。(每个从节点只有一个核被激活。)

我必须在rha中设置任何配置吗?(就像我对hadoop的配置文件，如core-site.xml所做的那样)

谢谢

你说的可能是rmr2，它是rha的一部分。Rmr2对此没有特定的配置。help(rmr.options)将显示所有配置选项。映射任务和映射槽的数量决定了映射阶段的并行度。听起来你有足够的空位。因此，地图任务的数量可能不足。这可能取决于输入的大小和其他属性。您可以向mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))传递一个额外的参数，但hadoop不会逐字执行此设置，而只是将其作为提示。backend.parameters参数已被弃用，但当它被删除时，将为这个特定的目标提供一些替代机制。如果问题在reduce阶段，键集的基数也很重要(它设置了并行度的上限)。我同意Paul的观点，如果你提供了一个可重复的例子，我的回答将包含更少的猜测。rha有一个专门的论坛，开发者和用户都很活跃https://groups.google.com/forum/?fromgroups=#!论坛/rhadoop

r语言 - 多核计算与rha

相关内容

最新更新

热门标签：