处理kafka连接中的数据丢失



我明白了Kafka connect可以以集群模式部署。工作人员在数据源和kafka主题之间移动数据。我想知道的是,如果一个工人在数据源到kafka主题之间移动数据时失败,会有数据丢失吗?如果出现数据丢失,我们如何从连接器获取数据,或者kafka connect会自动处理它?

这取决于来源和它是否支持偏移跟踪。

例如,可以重复调用文件中的行、具有主ID/时间戳的数据库中的行或一些相同的API调用,并获得相同的起始位置。(尽管在每种情况下,底层数据也需要不可变才能一致地工作)

Kafka Connect SourceTask API有一个调用来提交跟踪的偏移量;(与Kafka主题偏移量不同)

最新更新