是 /etc/bin/Hadoop 一个同步调用



当你调用/etc/bin/hadoop jar myjar 时.jar myclass args

mapreduce作业是否同步运行? 换句话说,调用是否仅在所有节点上的所有mapreduce作业完成后返回?

这在派遣坚果作业的情况下尤其重要。我想知道在命令返回时是否已完成网站爬网。

是的,这是一个同步调用,因为对于最终结果,您必须等到所有节点的作业完成。事实上,我想说这也取决于您如何编写作业,即您可以添加一些代码行来打印终端上的当前爬网状态,通过它您将获得爬网的实时状态更新。但是要查看爬网的最终输出,您必须等到作业完成。

不,Map Reduce工作不是同时完成的。首先映射器类完成其工作,然后映射器的输出将提交到化简器阶段(在shuffling,sorting,combing之间(。在映射器阶段,节点将其结果共享到 NameNode,如果 namenode 找到完整的输出,它将告诉映射器停止映射器阶段。之后开始减少阶段。

相关内容

  • 没有找到相关文章

最新更新