Kafka和其他流媒体技术中的过滤



我目前正在研究使用哪种流处理技术。到目前为止,我已经研究了消息队列技术和流媒体框架。我现在倾向于Apache Kafka或Google Pub/Sub。

我的要求:

  • 实时传递、读取和处理消息/事件
  • 消息/事件中的持久性
  • 能够实时过滤消息/事件,无需阅读整个主题。例如:如果我有一个名为"details"的主题,我希望能够过滤掉该主题中的消息/事件,其中事件的属性等于某个值
  • 能够查看某个主题或队列的生产者是否已完成
  • 能够根据事件中等于某个值的属性删除主题中的消息/事件
  • 在消息/事件中排序

我的问题是:对于这些用例,什么是最好的框架/技术?从我目前所读到的内容来看,Kafka并没有为主题中的消息/事件提供开箱即用的过滤方法,Google Pub/Sub也有过滤方法。

欢迎任何建议和经验。

根据您提到的要求,kafka似乎很适合,使用kafka流或KSQL,您可以实时执行过滤,下面是一个示例https://kafka-tutorials.confluent.io/filter-a-stream-of-events/confluent.html

您需要的不仅仅是集成和数据传输,您还需要类似于ETL工具的东西,在这里您可以在GCP中找到更多关于ETL和工具的信息https://cloud.google.com/learn/what-is-etl

最新更新