小贝子编程

如何设置 kafka 连接器定期运行并在正确的偏移量处恢复

我想使用 kafka

connect 从 kafka 服务器摄取数据并移动到 s3。
但是，我想知道如何将其设置为定期运行，例如。每小时一次？
然后停止。
然后继续在我上次停止的偏移处运行下一轮？
如何存储这些偏移量？如何设置这些属性？

正如另一个答案所提到的，Kafka Connect不适合"每小时一次"的工作。

替代的批处理解决方案是Apache Gobblin，它可以按计划运行以将文件写入S3。

Kafka connect 框架用于从/到 kafka 的连续流。对于您提到的要求，似乎您需要 s3 接收器连接器，除非有特定的需要以批处理方式进行。请参考 kafka s3 连接器文档

相关内容