优化hadoop集群上的nutch性能



我正在努力优化爬网站点的nutch性能。现在我在小型hadoop集群上测试性能,只有两个节点32gb RAM,cpu Intel Xeon E3 1245v2 4c/8t。我的nutch配置http://pastebin.com/bBRHpFuq

因此,问题是:获取工作并不理想。一些reduce任务有4k个页面可供获取,有些则有1k个页面。例如,请参见屏幕截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成,但一个任务工作了11个小时,仍然在继续工作,所以当我有24个reduce的任务,但只工作一个时,这就像一个瓶颈。

可能有人可以给我提供有用的建议或链接,在那里我可以阅读有关问题。

这是Nutch的问题,一个站点花费了大约5万,其他站点花费了50万。所以当它按主机创建队列时,我们会看到一个非常大的队列和另一个非常小的队列。

最新更新