我正在尝试使用gpss
(Greenplum Stream Server(将数据从Kafka加载到GreenplumDB。
主要问题是gpss
实例如何将当前写偏移量提交到kafka?
现在gpss
实例并没有向kafka提交任何消息,而是在GreenplumbDB中处理服务表中的当前偏移量。我的预期行为是:
- 使用给定的group.id和主题(这在kafka中是强制性的,在gpss设置中不是强制性的-看起来很奇怪btw(
- 开始使用kafka主题中的数据
- 按分区跟踪较高偏移
- 出现COMMIT条件时等待(COMMIT是gpss作业配置中的设置块(
- 使用
gpfdist
将kafka中的一批数据写入外部表 - 将分区的最大偏移量提交给kafka
- 重复
但现在它在没有步骤n.5的情况下工作有人知道为什么吗?
第二个问题是,gpss是否使用group.id?在gpss作业配置中,我找到了对应于kafka消费者配置属性的PROPERTIES
块配置
gpss会将消耗的偏移量提交给Kafka,如果自1.6.0版本以来在yaml文件中设置了"group.id"。它之前只向Greenplum的跟踪表提交了偏移量。