为Kafka调整S3文件大小

我正在尝试深入了解S3连接器的flush.size和rotate.interval.ms配置。我部署了S3连接器，我的文件大小似乎从6 kb一直到30 mb，不知道这里是否有人可以帮助我提供如何获得几乎相等的文件大小的建议。

以下是我的设置：flush.size= 200000、rotate.interval.ms=10min

我们也尝试了基于这个git中的一个例子来推出我们自己的连接器https://github.com/canelmas/kafka-connect-field-and-time-partitioner但我们仍然无法使文件大小大致相同。

S3 Sink连接器将数据写入每个Kafka分区的分区路径和partitione.class.定义的分区路径

基本上，S3连接器将缓冲区冲洗到以下状态。

注意：这有助于清除积压数据，让我们假设rotate.interval.ms然后我们有6个小时的延迟数据，所以每个时间戳都超过了10如果数据不是，分钟刷新将在几秒钟内延迟它将等待接收下一轮。间隔毫秒通过

如果是基于时间的分区

相关内容