Flink:将回收流写入kafka水槽

有人能分享将回收流写入kafka接收器的工作示例吗？

我试了以下方法，但没有效果。

DataStream<Tuple2<Boolean, User>> resultStream =
tEnv.toRetractStream(result, User.class);
resultStream.addsink(new FlinkKafkaProducer(OutputTopic, new ObjSerializationSchema(OutputTopic),
props, FlinkKafkaProducer.Semantic.EXACTLY_ONCE))

通常，最简单的解决方案是执行类似的smth

resultStream.map(elem -> elem.f1)

这将允许您将User对象写入Kafka。

但从业务角度来看，这并不是那么简单，或者至少这取决于用例。Kafka是一个仅追加的日志，回收流表示ADD、UPDATE和DELETE操作。因此，虽然上面的解决方案允许您将数据写入Kafka，但Kafka中的结果可能不能正确地表示实际的计算结果，因为它们不会表示更新和删除操作。

为了能够将实际正确的计算结果写入Kafka，您可以尝试做以下事情之一：

如果您知道您的用例永远不会导致任何DELETE或UPDATE操作，那么您可以安全地使用上面的解决方案
如果重复项可能只在某些固定的时间间隔内产生(例如，记录可能只在产生后1小时后更新/删除(，则您可能希望使用窗口聚合所有更新，并将一个最终结果写入Kafka
最后，您可以扩展User类来添加一个字段，该字段标记该记录是否是回收操作，并在向Kafka主题写入数据时保留该信息。这意味着您必须在下游处理所有可能的UPDATE或DELETE操作(在该数据的使用者中(

最简单的解决方案是使用upsert-kafka连接器作为表接收器。这是为了使用回收流并将其写入kafka。

https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/connectors/upsert-kafka.html

相关内容

最新更新

热门标签：