DefaultPartitioner与TimeBasedPartitioner S3在100个分区和50K刷新大小下的上



我在MSK无服务器集群中使用了一个100分区主题,其中包含3个副本和2个ISR。

运行Confluent S3接收器连接器的EC2实例在15分钟内从我的MSK集群接收56 GB数据,并在同一时间段内仅上传

37GB我的S3接收器连接器配置。

tasks.max=50
partitioner.class=io.confluent.connect.storage.partitioner.DefaultPartitioner
flush.size=50000
rotate.interval.ms=-1
rotate.schedule.interval.ms=-1

根据我的理解,在将文件上传到S3之前,当前的配置会等待每个分区累积50000条消息。因此,如果我使用基于时间的逐小时分区器,则会更快地达到50k消息的限制,因为在15分钟的时间框架内只有1个分区,而不是100?

提前谢谢。

每个任务都有自己的刷新缓冲区。Hourly partitioner将缓冲整个小时,或者转储小时分区内的每组50000条记录,以先发生的为准。

相关内容

  • 没有找到相关文章

最新更新