如何在 flink 流中动态序列化参数

我有一个参数params要在 flink 流中序列化，

class P extend Serializable {...}
val params = new P(...)
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.addSource(new MySource(params))
.map(new MyMap(params))
.addSink(new MySink(params))
env.setParallelism(1)
env.execute("My Job")

但是参数会在驱动程序节点中发生变化，我需要在作业运行期间将params更新为执行器。是否可以基于不停止的 flink 流作业？

简而言之，答案是否定的。因为每次出现新记录时，UDF 都需要 [反]序列化参数，这会减慢执行速度。

但是，您可以通过扩展 AbstractUdfStreamOperator 来实现自己的流运算符，并在转换操作中调用它。我在这里做了一个例子："在 Flink 中实现我自己的流运算符来处理数据倾斜"。

然后决定运算符何时读取新参数。例如，只需创建一个计划为每 10 分钟一次的新线程。参数文件必须放置在操作员将运行的所有节点上。

相关内容

最新更新

热门标签：