我有以下情况:
- 我的lambda正在向Kafka Topic发送消息,这些消息包含不同日期的字段
- 我的Kafka连接器有flush.size=1000,并将主题中的消息按:年、月、日字段划分到S3存储桶
问题是Kafka Connect没有提交主题上的偏移量。它始终读取相同的偏移量->它总是用相同的数据覆盖S3对象。
当我换成10号时,一切都是你的。
我如何处理这个问题以保持齐平。size=1000?
只有在写入S3文件时才会提交偏移。如果您没有为分区每天发送1000个事件,那么这些记录将保存在内存中。它们不应该在S3中被复制/覆盖,因为接收器连接器只有一次交付(如文档所示(
降低冲洗尺寸是一种解决方案。或者您可以添加计划轮换间隔属性