hadoop中映射输出记录数少于组合输入记录数



当我运行mapreduce时,我得到的组合输入记录大于映射输出记录?这真的很奇怪。我不知道到底发生了什么?据我所知,映射输出记录应该完全相同,并组合输入记录。有人能帮我解决这个问题吗。提前谢谢。

下面是一个真实世界的工作示例:

    Map-Reduce Framework
      Map input records=112705844
      Map output records=64841776
      Combine input records=64842079
      Combine output records=409
      Reduce input records=106
      Reduce output records=4

显然,从Hadoop0.18开始,组合器的应用行为发生了变化。之前,每个映射任务只调用一次组合器。现在,它可以在map和reduce侧被调用0次或更多次。这表明组合器输入/输出记录的计数不必与映射/减少输入/输出计数精确匹配。

相关内容

  • 没有找到相关文章