根据我的理解,存储在HDFS中的文件被划分为多个块,每个块被复制到多个节点,默认为3。Hadoop框架如何从复制特定块的所有节点中选择运行映射作业的节点。
正如我所知,map
任务的数量与块的数量相同。
请参阅此处的手册。
通常,框架会选择靠近输入块的节点来减少map
任务的网络带宽。
我只知道这些。
在Mapreduce 1中,这取决于承载副本的数据节点中运行的映射任务数量,因为映射任务的数量在MR1中是固定的。在MR2中没有固定的插槽,所以它取决于该节点中已经运行的任务的数量。