合流的s3源连接器如何知道它已经摄入了哪些文件,哪些是新文件



https://docs.confluent.io/kafka-connect-s3-source/current/

我认为这个连接器轮询s3以获得文件列表,但它是否保留了已处理的文件和新文件的状态?如果它确实存储状态,那么状态存储在哪里?

通常,源连接器将状态存储在配置的config.offsets.topic中,虽然我没有使用过这个特定的连接器,但我认为它必须依赖于单调递增的S3密钥,例如由相应的S3接收器编写的密钥,因此不应期望它适用于任何随机的S3桶

在这篇文章中有一些关于常规文件源连接器的细节

相关内容

  • 没有找到相关文章

最新更新