优化hadoop集群上的nutch性能

我正在努力优化爬网站点的nutch性能。现在我在小型hadoop集群上测试性能，只有两个节点32gb RAM，cpu Intel Xeon E3 1245v2 4c/8t。我的nutch配置http://pastebin.com/bBRHpFuq

因此，问题是：获取工作并不理想。一些reduce任务有4k个页面可供获取，有些则有1k个页面。例如，请参见屏幕截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit有些reduce任务在10分钟内完成，但一个任务工作了11个小时，仍然在继续工作，所以当我有24个reduce的任务，但只工作一个时，这就像一个瓶颈。

可能有人可以给我提供有用的建议或链接，在那里我可以阅读有关问题。

这是Nutch的问题，一个站点花费了大约5万，其他站点花费了50万。所以当它按主机创建队列时，我们会看到一个非常大的队列和另一个非常小的队列。

相关内容

最新更新

热门标签：