小贝子编程

重新运行Hadoop作业，分区后的mapoutput是否仍然会发送到相同的Reducers

本文关键字：Reducers 是否作业 Hadoop 分区重新运行 mapoutput java hadoop mapreduce
更新时间 : 2023-08-26
英文 : Re-run the Hadoop job, will the partitioned mapoutput still go to the same Reducers?

在hadoop中，假设节点数量是固定的(运行期间没有服务器崩溃)，如果我使用相同的分区器(例如，在map输出的键上进行哈希分区)对mapper输出进行分区，并且我执行作业读取相同的数据集两次。是否确定具有相同键的数据将转到相同的减速器?由于

例如，my mapoutput由两行组成:Key | value

A | anything

B | anything

假设我有两个减速器1和2。在第一次运行中，行"A|anything"到减速器1，而"B|anything"到减速器2。如果我再次运行，是否有可能"A|anything"转到减速机2，而"B|anything"转到减速机1?

谢谢!

map/reduce任务与节点之间没有亲缘关系。当map/reduce任务即将运行时，调度器会选择一个可用的空闲map/reduce插槽(它可能是/也可能不是与前一次运行相同的机器)来运行该任务。因此，当Job重新运行时，相同的键可能由不同的reducer处理。

相关内容