如何使用java在hadoop中跨多个映射器同步全局变量的变化



我想保持所遇到的元组数量的计数,所以我使用了一个全局变量,并在每次运行映射器时增加它。我想知道不同的映射器在给出正确答案时是如何同步全局变量的?我还想知道这个例程是否强制映射器按顺序运行?

如果您使用的是hadoop streaming,则不应该这样做。

当为映射器指定可执行文件时,每个映射器任务将在初始化映射器时将可执行文件作为独立进程启动。当mapper任务运行时,它将其输入转换为行,并将行提供给流程的标准。同时,映射器从流程的标准输出中收集面向行的输出,并将每行转换为键/值对,这将作为映射器的输出收集。

mapperreducer都是可执行文件,从stdin(逐行)读取输入,将输出发送到stdout

关于hadoop流的更多信息

相关内容

  • 没有找到相关文章