我目前正在使用Confluent HDFS接收器连接器(v4.0.0)来替换Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性。
切换计划:
- 我们创建了 hdfs 接收器连接器,并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为connect-的使用者组
- 已使用删除请求停止连接器。
- 使用/usr/bin/kafka-consumer-groups脚本,我能够将连接器消费组 kafka 主题分区的当前偏移量设置为所需的值(即 Camus 写入的最后一个偏移量 + 1)。
- 当我重新启动 hdfs 接收器连接器时,它会继续从上次提交的连接器偏移量读取并忽略设置值。我希望hdfs文件名是这样的: hdfs_kafka_topic_name+kafkapartition+Camus_offset+Camus_offset_plus_flush_size.format
我对融合连接器行为的期望是否正确?
当您重新启动此连接器时,它将使用嵌入在文件中的偏移量,其中包含写入 hdfs 的最后一个文件。它不会使用使用者组偏移量。它这样做是因为它使用预写日志来实现一次交付到 hdfs。