我意识到的是,创建一个要发送到化简器的键排序列表是映射器的主要目标。然后,如果列表非常大,则需要在映射器中进行分区,以便它可以由reducer处理(我的意思是对于唯一键,值列表很大,那么需要对其进行分区(,但是为什么Hadoop需要对映射器中的键进行排序。有人问我这个问题,我无法完全说服他。我只是一个初学者,有点好奇.任何帮助,不胜感激。
排序发生在映射器阶段之后和执行化简器作业之前,您不需要显式执行此操作。
请参考类似的问题