我想使用 kafka
connect 从 kafka 服务器摄取数据并移动到 s3。
但是,我想知道如何将其设置为定期运行,例如。每小时一次?
然后停止。
然后继续在我上次停止的偏移处运行下一轮?
如何存储这些偏移量?如何设置这些属性?
正如另一个答案所提到的,Kafka Connect不适合"每小时一次"的工作。
替代的批处理解决方案是Apache Gobblin,它可以按计划运行以将文件写入S3。
Kafka connect 框架用于从/到 kafka 的连续流。对于您提到的要求,似乎您需要 s3 接收器连接器,除非有特定的需要以批处理方式进行。请参考 kafka s3 连接器文档