小贝子编程

所有map方法为特定键生成的所有值都发送给一个reduce方法，这对吗?

本文关键字：方法一个 reduce map 所有 java hadoop mapreduce
更新时间 : 2023-08-26
英文 : is it right that all of the values spawned by all map methods for a specific key are all sent to one single reduce method?

如果正确，如标题所示，如果单个键中有太多数据无法由一次reduce处理怎么办?

如果没有，是否有许多降低级别用于处理?一个减少排放，另一个消耗?这似乎是不对的，因为当输入格式与输出格式不同时会出现问题，但只是感到困惑。

这可能是相关的:组合器是仅用于单个节点的LOCAL聚合还是用于所有节点的全局聚合?

真的需要一个答案不是简单的"是"或"不是"，而是一个解释将是感激的!

是的，特定键的数据将被发送到特定的reducer。组合器肯定会减轻对单个键拥有大多数记录的问题。我想不出更好的方法来更快地完成这项工作。

这可能是相关的:组合器是仅用于每个节点的LOCAL聚合还是用于所有节点的全局聚合?

Combiner运行在与mapper相同的节点上，用于本地聚合，reducer用于跨集群中所有节点的全局聚合。

相关内容