小贝子编程

为什么分组操作在mapreduce中被认为是昂贵的

谁能解释一下在hadoop中作业是如何映射和减少的，为什么按操作分组被认为是昂贵的?

我就不说贵了。但我想说的是，它确实会影响性能，对于排序或排序来说，对记录进行排序所需的处理要多得多。当对数百万或数十亿条记录进行排序时，比较器和分区器对数据的处理将是巨大的。

我希望我能回答你的问题。

Hadoop的性能受到两个主要因素的影响:

1- Processing:在集群节点上处理map和reduce任务所花费的执行时间。

2-通信:洗牌数据，一些操作需要将数据从一个节点发送到另一个节点进行处理(如全局排序)。

Groupby需求复杂性需求影响两个因素。在shuffle中，一半的数据大小可能在节点之间进行shuffle。

相关内容