Spark具有映射端组合的概念,因此您可以执行部分聚合,从而减少(双关语意外)洗牌。
Flink 中是否有等效的东西?
是的。Flink 提供了多个接口来定义(映射端)组合器。
GroupCombineFunction<IN, OUT>
将一组- 输入类型
IN
的子集组合成一个或多个类型为OUT
的组合值 - 输入类型
IN
的子集合并为类型为OUT
的单个值 ReduceFunction<T>
将T
类型的对组合成T
类型的单个值。此功能自动用于组合(预聚合)和减少(完全聚合)。
CombineFunction<IN, OUT>
将一组