Confluent Kafka Connect HDFS接收器连接器延迟



我有一个包含200万条消息的kafka主题,我的刷新大小是100000,默认分区处于分布式模式,有4个工人,我可以看到数据在几秒钟内(10到15秒(立即写入HDFS。

我看到创建了一个+tmp目录和文件夹,每次触发新连接器时都会创建主题。

kafka connect的行为是每次都这么快地写入数据,还是已经将数据存储在HDFS中并根据连接器属性将其移动到主题目录?

如果我想计算延迟,我该如何计算?

如果我停止并删除/topics和/temp中的主题目录,并重新触发同一主题,它会再次从Kafka中提取数据吗?还是会从hdfs中的某个位置获取数据作为备份?

需要弄清楚这是如何发生的。如果我的理解不正确,请告诉我。

是kafka connect每次都这么快写入的行为,还是它已经将数据存储在HDFS中,并根据连接器属性将其移动到主题目录?

两者都有。这是一个Kafka Consumer在内存中进行缓冲,并在HDFS上写入预写日志。+tmp文件夹包含临时文件,这些文件被"压缩"成更大的HDFS文件,并与Kafka Consumer偏移提交一起移动到最终位置。

计算此的延迟

您可以在Brokers和Connect实例上启用监控侦听器的情况下使用Control Center。

否则,您可以在连接器的CLI中描述使用者组,以查看使用者滞后。

如果我停止并删除/topics和/temp中的主题目录,并重新触发同一主题,它会再次从Kafka 中提取数据吗

在HDFS连接的某个版本之前,我相信它是从存储在HDFS中的偏移量恢复的。为了在任何其他Kafka消费者中从头开始重新启动,您必须删除或重置消费者组。

如果您删除了主题目录,则HDFS中没有Connect引用的其他位置,因此没有备份

相关内容

  • 没有找到相关文章

最新更新