我试着用rha(R和hadoop之间的链接)计算一些东西。
当我用Hadoop-1.0.4中的嵌入式示例对我的集群进行基准测试时,它看起来运行良好。(我的意思是所有从节点的核心都工作,尽管cpu使用率在50%和100%之间波动)
然而,当我应用一个rha的例子时,情况并非如此。(每个从节点只有一个核被激活。)
我必须在rha中设置任何配置吗?(就像我对hadoop的配置文件,如core-site.xml所做的那样)
谢谢
你说的可能是rmr2,它是rha的一部分。Rmr2对此没有特定的配置。help(rmr.options)
将显示所有配置选项。映射任务和映射槽的数量决定了映射阶段的并行度。听起来你有足够的空位。因此,地图任务的数量可能不足。这可能取决于输入的大小和其他属性。您可以向mapreduce backend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))
传递一个额外的参数,但hadoop不会逐字执行此设置,而只是将其作为提示。backend.parameters
参数已被弃用,但当它被删除时,将为这个特定的目标提供一些替代机制。如果问题在reduce阶段,键集的基数也很重要(它设置了并行度的上限)。我同意Paul的观点,如果你提供了一个可重复的例子,我的回答将包含更少的猜测。rha有一个专门的论坛,开发者和用户都很活跃https://groups.google.com/forum/?fromgroups=#!论坛/rhadoop