Apache Flink Shuffle的策略?它就像在Hadoop中的洗牌吗?



,例如在hadoop中,地图和降低之间存在一个混乱相。我想知道Flink是否有这样的阶段,以及它的工作原理。因为我读了很多网站,他们没有提及很多。。

洗牌并不总是执行,仅取决于特定的操作员。在您的示例中,WordCount示例中的键性步骤引入了一个哈希分区器,该分区器会根据密钥执行数据改组。

在其他情况下,例如 - 如果您只想在没有某种形式的聚合中处理和过滤数据,然后在某个地方写入数据,那么您的每个分区都会容纳自己的数据,并且不会涉及任何类型的改组。

所以回答您的问题 -

  1. 不,改组并不总是在2个操作员之间涉及。
  2. 如果您询问像Hadoop一样可以访问的一些中间文件,那么答案是否,Flink是一种内存的处理引擎,并且(在大多数情况下)处理在内存中读取的数据。

相关内容

  • 没有找到相关文章

最新更新