具有多并行性的 Flink Map 函数,以及如何保证最终下沉的顺序



管道简单代码是研究员:

source = env.addSource(kafkaConsumer)
.map(func).setParallelism(2).sink()

如何确定出局的顺序?

首先,假设示例中的其他所有内容都具有 1 的并行度,并且只有 map 函数将并行运行。(尽管要实际实现这一点,它必须在某个地方进行配置;默认并行度高于 1。

我们还假设您的 Kafka 使用者正在读取具有一个分区的单个主题,并且您正在询问如何实现保留输入中存在的顺序的并行转换。

有了这些假设,答案是你无能为力。映射运算符的两个实例之间存在争用,非并行接收器将以任意方式交错这两个传入流。

如果流记录以某种方式标记,例如使用升序时间戳或 ID,那么您可以假设引入一些缓冲并重新建立原始排序,无论是在自定义接收器中还是在映射和接收器运算符之间的非并行 RichCoMap 函数中。

另一方面,如果您的源以某种方式分区或键控,并且您只需要在每个键的基础上维护或建立排序,那么有更好的答案。

相关内容

  • 没有找到相关文章

最新更新