Hadoop中是什么阻止我们设置映射器的数量

据我所知，即使我们可以设置减速器的数量，我们也无法在MR作业中设置映射器的数量。\ref｛如何限制映射程序的数量｝

作为一个概念，我不明白为什么我们不能有预定数量的映射器，并向它们提供文本文件块。

为了最佳地平衡性能和工作负载分布，框架通过输入拆分的数量来确定映射器的数量。

Apache hadoop wiki链接herehttp://wiki.apache.org/hadoop/HowManyMapsAndReduces详细介绍-

实际上，控制地图的数量是很微妙的。mapred.map.tasks参数只是一个提示>映射数量的InputFormat。默认的InputFormat行为是将字节总数>拆分为适当数量的片段。但是，在默认情况下，>输入文件的DFS块大小被视为输入拆分的上限。拆分大小的下限可以通过mapred.min.split.size设置>。因此，如果您期望10TB的输入数据和128MB的DFS块，则最终会>得到82k个映射，除非您的mapred.map.tasks更大。最终，InputFormat>确定贴图的数量。

相关内容

最新更新

热门标签：