水槽使用hdfs接收器.如何在 hdfs 不可用时确保数据完整性



当hdfs不可用时,有没有办法确保数据安全?场景是:kafka-source,flume内存通道,hdfs-sink。如果 flume 服务关闭,它是否可以存储主题分区的偏移量并在恢复后从正确的位置消耗?

通常(使用默认配置),kafka 存储所有使用者的主题偏移量。如果您使用相同的组 ID(使用者属性之一)启动 flume 源,kafka 将直接从源的偏移量开始发送消息。但是,已经从 kafka 读取并存储在内存通道中的消息将由于 HDFS 接收器故障而丢失。

最新更新