Hadoop映射任务/映射对象

根据理论，以下属性用于定义数据节点上映射/红色任务槽的数量。CCD_ 1。

此外，映射器对象的数量由MapReduce作业中的输入拆分数量决定。我们实现了map/red函数，框架创建对象并将它们发送到最接近数据块的位置。

那么映射任务槽和框架创建的映射器对象之间有什么区别呢。

假设我在5个数据节点上存储2TB文件，每个节点都有400Mb。如果我定义dfs.block.size =100Mb，则每个节点将保持400/100＝4个数据块。在这里，在4个数据块中，理想情况下，每个节点可以有4个输入拆分，进而有4个映射器对象。同时如果我定义CCD_ 3&mapred.map.tasks=2，那么我能从中得出什么结论呢？我能说4个映射器对象将在2个映射任务槽之间共享吗。我可能走错了方向，任何澄清都会有帮助。

map slots决定了任务跟踪器可以运行的map tasks数量。map tasks是由输入拆分决定的，你不能更改它。如果map tasks比map slots多，一些mapred.tasktracker.map.tasks.maximum | mapred.map.tasks0会阻塞并运行，直到其他任务完成。

相关内容

最新更新

热门标签：