Camus Migration - Kafka HDFS Connect 不是从设定的偏移量开始的



我目前正在使用Confluent HDFS接收器连接器(v4.0.0)来替换Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性。

切换计划:

  1. 我们创建了 hdfs 接收器连接器,并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为connect-的使用者组
  2. 已使用删除请求停止连接器。
  3. 使用/usr/bin/kafka-consumer-groups脚本,我能够将连接器消费组 kafka 主题分区的当前偏移量设置为所需的值(即 Camus 写入的最后一个偏移量 + 1)。
  4. 当我重新启动 hdfs 接收器连接器时,它会继续从上次提交的连接器偏移量读取并忽略设置值。我希望hdfs文件名是这样的: hdfs_kafka_topic_name+kafkapartition+Camus_offset+Camus_offset_plus_flush_size.format

我对融合连接器行为的期望是否正确?

当您重新启动此连接器时,它将使用嵌入在文件中的偏移量,其中包含写入 hdfs 的最后一个文件。它不会使用使用者组偏移量。它这样做是因为它使用预写日志来实现一次交付到 hdfs。

相关内容

  • 没有找到相关文章

最新更新