X,n数据集的Y坐标有多少个Kafka主题



我正在尝试使用KAFKA将n (yi,xi)推入Spark流中,然后以并行方式将每个模型建模,我非常困惑这两个替代方案:

  1. 使用n个主题(一个数据集的1个主题( n消费者组
  2. 仅使用1个主题,每个分区都有一个特殊键 n消费者组

从我的理解中。

您每个数据集 您的消费者组应该有1个主题。在每个主题中,您应该拥有与打算为该主题创建的消费者一样多的分区。

为了增加数据集的吞吐量,您不希望主题只有一个分区(因为只允许您在消费者组中拥有一个消费者(。默认情况下,Kafka将以循环的方式向每个分区发送消息。这将把消息分为给定主题的每个分区的平等组,使您可以为每个分区创建相应的消费者。

示例:如果主题中有三个分区,则可以将三个(同一(消费者订阅该主题。这将使他们能够并行运行每个分区;增加数据集的吞吐量。

希望会有所帮助。

最新更新