小贝子编程

如何使用java在hadoop中跨多个映射器同步全局变量的变化

本文关键字：映射同步全局变量变化 java 何使用 hadoop java hadoop mapreduce
更新时间 : 2023-08-24
英文 : How to sync change in global variable across multiple mappers in hadoop using java?

我想保持所遇到的元组数量的计数，所以我使用了一个全局变量，并在每次运行映射器时增加它。我想知道不同的映射器在给出正确答案时是如何同步全局变量的?我还想知道这个例程是否强制映射器按顺序运行?

如果您使用的是hadoop streaming，则不应该这样做。

当为映射器指定可执行文件时，每个映射器任务将在初始化映射器时将可执行文件作为独立进程启动。当mapper任务运行时，它将其输入转换为行，并将行提供给流程的标准。同时，映射器从流程的标准输出中收集面向行的输出，并将每行转换为键/值对，这将作为映射器的输出收集。

mapper和reducer都是可执行文件，从stdin(逐行)读取输入，将输出发送到stdout。

关于hadoop流的更多信息

相关内容