Hadoop映射任务/映射对象



根据理论,以下属性用于定义数据节点上映射/红色任务槽的数量。CCD_ 1。

此外,映射器对象的数量由MapReduce作业中的输入拆分数量决定。我们实现了map/red函数,框架创建对象并将它们发送到最接近数据块的位置。

那么映射任务槽和框架创建的映射器对象之间有什么区别呢。

假设我在5个数据节点上存储2TB文件,每个节点都有400Mb。如果我定义dfs.block.size =100Mb,则每个节点将保持400/100=4个数据块。在这里,在4个数据块中,理想情况下,每个节点可以有4个输入拆分,进而有4个映射器对象。同时如果我定义CCD_ 3&mapred.map.tasks=2,那么我能从中得出什么结论呢?我能说4个映射器对象将在2个映射任务槽之间共享吗。我可能走错了方向,任何澄清都会有帮助。

map slots决定了任务跟踪器可以运行的map tasks数量。map tasks是由输入拆分决定的,你不能更改它。如果map tasksmap slots多,一些mapred.tasktracker.map.tasks.maximum | mapred.map.tasks0会阻塞并运行,直到其他任务完成。

最新更新