Kafka 流 - 是否可以减少多个聚合创建的内部主题的数量 - Kafka Streams - is it possible to reduce the number of internal topics created by multiple aggregations 小贝子编程网

我有一个Kafka Streams应用程序，它按多个值对传入的消息进行分组。例如：

示例消息：

{ "gender": "female", "location": "canada", "age-group": "25-30" }

拓扑学：

table
.groupBy((key, value) -> groupByGender) // example key: female
.count("gender-counts");
table
.groupBy((key, value) -> groupByLocation) // example key: canada
.count("location-counts");
table
.groupBy((key, value) -> groupByAgeGroup) // example key: 25-30
.count("age-group-counts");

这导致许多主题：

my-consumer-gender-counts-changelog
my-consumer-gender-counts-repartition
my-consumer-location-counts-changelog
my-consumer-location-counts-repartition
my-consumer-age-group-counts-changelog
my-consumer-age-group-counts-repartition

如果我们可以将多个聚合发送到单个状态存储，并将分组按值作为键的一部分包含在内，那就太好了。例如：

table
.groupBy((key, value) -> groupByGender) // example key: female_gender
.count("counts");
table
.groupBy((key, value) -> groupByLocation) // example key: canada_location
.count("counts");
table
.groupBy((key, value) -> groupByAgeGroup) // example key: 25-30_age_group
.count("counts");

这将导致更少的主题：

counts-changelog
counts-repartition

这目前似乎是不可能的(无论如何使用 DSL)，因为使用groupBy运算符会创建一个用于重新分区的内部主题，因此如果我们有多个groupBy不同事物的子拓扑，那么 Kafka Streams 将尝试从多个源注册相同的重新分区主题。这会导致以下错误：

org.apache.kafka.streams.errors.TopologyBuilderException: Invalid topology building: Topic counts-repartition has already been registered by another source.
at org.apache.kafka.streams.processor.TopologyBuilder.validateTopicNotAlreadyRegistered(TopologyBuilder.java:518)

如果groupBy可以返回多个记录(例如，像flatMap一样)，那么我们可以返回一个记录集合(每个分组一个记录)，但这似乎也不可能使用 DSL。

我的问题是，给定一条可以按多个值分组的记录(例如{ "gender": "female", "location": "canada", "age-group": "25-30" })，是否应该关注创建多个主题(每个分组 2 个)(例如，我们有 100 个不同的分组)？当单个记录可以按多个值分组时，是否有其他策略可能更适合？我建议的(将多个聚合下沉到单个更改日志主题)是一个坏主意(即使唯一键的数量非常低)？

如果要按不同的属性进行分组，则无法避免多个重新分区主题。假设您有两个分组属性g1和g2以及三个具有以下值的记录：

r1 = g1:A, g2:1
r2 = g1:A, g2:2
r3 = g1:B, g2:2

因此，要根据g1正确聚合记录，必须将记录r1和r2组合在一起。假设您的重新分区主题有 2 个分区p1和p2，该记录将像

p1: r1, r2
p2: r3,

另一方面，如果在r2上聚合，则必须将记录r2和r3组合在一起：

p1: r1
p2: r2,r3

请注意，对于这两种情况，r2必须转到不同的分区，因此，不可能使用单个主题，但每个分组需要一个主题。(这不是 Kafka 特有的——任何其他框架也需要多次复制和重新分发日期)。

从理论上讲，如果您添加更多语义信息(如超级键、子键或 1 对 1 键映射)，则可以减少主题的数量。但这不受Kafka Streams(和AFAIK，没有其他类似系统)的支持。

Kafka 流 - 是否可以减少多个聚合创建的内部主题的数量

相关内容

最新更新

热门标签：