我想在Hadoop集群上同时运行许多作业,但我想防止某些作业在该作业的所有映射任务完成之前启动reduce阶段(使减少插槽繁忙或保留)。是否有任何作业配置来设置上述主题限制?
谢谢。
减少启动缓慢默认情况下,调度程序会等到作业中 5% 的映射任务完成之前计划减少同一作业的任务。对于大型作业,这可能会导致以下问题:集群利用率,因为它们在等待映射任务时占用的插槽减少完成。将 mapred.reduce.slowstart.complete.maps 设置为更高的值,例如0.80 (80%),有助于提高吞吐量。
参考文献 : Hadoop权威指南第3版,第9章:设置Hadoop集群 页数:316
在这里获得Apache Hadoop的默认值,mapred.reduce.slowstart.completed.maps
其值0.05
在为作业安排缩减之前应完成的作业中地图数的一小部分。