谁能解释一下在hadoop中作业是如何映射和减少的,为什么按操作分组被认为是昂贵的?
我就不说贵了。但我想说的是,它确实会影响性能,对于排序或排序来说,对记录进行排序所需的处理要多得多。当对数百万或数十亿条记录进行排序时,比较器和分区器对数据的处理将是巨大的。
我希望我能回答你的问题。Hadoop的性能受到两个主要因素的影响:
1- Processing:在集群节点上处理map和reduce任务所花费的执行时间。
2-通信:洗牌数据,一些操作需要将数据从一个节点发送到另一个节点进行处理(如全局排序)。
Groupby需求复杂性需求影响两个因素。在shuffle中,一半的数据大小可能在节点之间进行shuffle。