我有多个flink作业,它们具有相同的kafka主题输入源,输出格式也相同。
来源->退缩作业1->输出
源->退缩作业2->输出
源->退缩作业3->输出
源->退缩作业4->输出
来源->退缩作业n->输出
输出格式类似于Object(pk: String, variable1: String, variable2: Boolean)
我想消耗所有的输出并进行组合输出,比如说输出数组的json
最终要求输出(pk: String, variable1: List[String], variable2: List[Boolean])
第页。S.-根据实现的flink jobs逻辑,一些flink job可能不会返回用于输入的输出,我使用scala作为语言
我通过创建另一个充当主作业的flink作业来解决这个问题。此作业的输入是其他N个作业的输出。由于这些作业有filter(condition)
,我又添加了一个带有filter(!condition)
的数据流,以确保每个作业都返回输出。此外,在主作业中添加了一个数据流,用于维护总作业数,并将其与主作业数据流一起connected
。其表示方式如下图所示。溶液流程