当我运行mapreduce时,我得到的组合输入记录大于映射输出记录?这真的很奇怪。我不知道到底发生了什么?据我所知,映射输出记录应该完全相同,并组合输入记录。有人能帮我解决这个问题吗。提前谢谢。
下面是一个真实世界的工作示例:
Map-Reduce Framework
Map input records=112705844
Map output records=64841776
Combine input records=64842079
Combine output records=409
Reduce input records=106
Reduce output records=4
显然,从Hadoop0.18开始,组合器的应用行为发生了变化。之前,每个映射任务只调用一次组合器。现在,它可以在map和reduce侧被调用0次或更多次。这表明组合器输入/输出记录的计数不必与映射/减少输入/输出计数精确匹配。