为什么分组操作在mapreduce中被认为是昂贵的



谁能解释一下在hadoop中作业是如何映射和减少的,为什么按操作分组被认为是昂贵的?

我就不说贵了。但我想说的是,它确实会影响性能,对于排序或排序来说,对记录进行排序所需的处理要多得多。当对数百万或数十亿条记录进行排序时,比较器和分区器对数据的处理将是巨大的。

我希望我能回答你的问题。

Hadoop的性能受到两个主要因素的影响:

1- Processing:在集群节点上处理map和reduce任务所花费的执行时间。

2-通信:洗牌数据,一些操作需要将数据从一个节点发送到另一个节点进行处理(如全局排序)。

Groupby需求复杂性需求影响两个因素。在shuffle中,一半的数据大小可能在节点之间进行shuffle。

最新更新