是 /etc/bin/Hadoop 一个同步调用

当你调用/etc/bin/hadoop jar myjar 时.jar myclass args

mapreduce作业是否同步运行？换句话说，调用是否仅在所有节点上的所有mapreduce作业完成后返回？

这在派遣坚果作业的情况下尤其重要。我想知道在命令返回时是否已完成网站爬网。

是的，这是一个同步调用，因为对于最终结果，您必须等到所有节点的作业完成。事实上，我想说这也取决于您如何编写作业，即您可以添加一些代码行来打印终端上的当前爬网状态，通过它您将获得爬网的实时状态更新。但是要查看爬网的最终输出，您必须等到作业完成。

不，Map Reduce工作不是同时完成的。首先映射器类完成其工作，然后映射器的输出将提交到化简器阶段(在shuffling,sorting,combing之间(。在映射器阶段，节点将其结果共享到 NameNode，如果 namenode 找到完整的输出，它将告诉映射器停止映射器阶段。之后开始减少阶段。

相关内容

最新更新

热门标签：