Hadoop中是什么阻止我们设置映射器的数量



据我所知,即使我们可以设置减速器的数量,我们也无法在MR作业中设置映射器的数量。\ref{如何限制映射程序的数量}

作为一个概念,我不明白为什么我们不能有预定数量的映射器,并向它们提供文本文件块。

为了最佳地平衡性能和工作负载分布,框架通过输入拆分的数量来确定映射器的数量。

Apache hadoop wiki链接herehttp://wiki.apache.org/hadoop/HowManyMapsAndReduces详细介绍-

实际上,控制地图的数量是很微妙的。mapred.map.tasks参数只是一个提示>映射数量的InputFormat。默认的InputFormat行为是将字节总数>拆分为适当数量的片段。但是,在默认情况下,>输入文件的DFS块大小被视为输入拆分的上限。拆分大小的下限可以通过mapred.min.split.size设置>。因此,如果您期望10TB的输入数据和128MB的DFS块,则最终会>得到82k个映射,除非您的mapred.map.tasks更大。最终,InputFormat>确定贴图的数量。

相关内容

  • 没有找到相关文章

最新更新