我试图在我们的环境中使kafka-connect产品化。出于基础设施需求的目的,我正在寻找如何估计每个节点所需的JVM堆大小。我有两个主题想通过s3连接器深入到s3。我看不出有什么好文章能达到这个估计值。有人能指引我吗?
没有好的指南,因为连接器太可配置了。
例如,每个任务(max.tasks(将批量记录到刷新大小(flush.size(,然后将其转储到存储器。
如果您使用的是DefaultPartitoner,您可以估计每个分区存储了多少记录,然后每个节点将运行多少任务,然后总共消耗了多少主题,并得出一个粗略的数字。
如果您使用的是TimeBasedPartitioner,那么您需要考虑分区持续时间和计划的轮换间隔。我可以说8GB RAM能够在一个小时的分区上从几个分区写入多个GB文件,所以我认为您不需要比这更多的堆来启动。
就其他文档而言,本期有一个不错的描述https://github.com/confluentinc/kafka-connect-storage-cloud/issues/177