Spark Kafka 集成在本地机器上进行实时推特流分析的缺点是什么?



我正在使用Spark-Kafka Integration来处理我的项目,即在Twitter上找到最热门的主题标签。为此,我使用 Kafka 通过 tweepy Streaming 推送推文,而在消费者方面,我使用 Spark Streaming 进行 DStream 和 RDD 转换......

我的问题是,通过 Kafka 运行流式处理一段时间是否会导致存储问题,因为我在本地机器上运行生产者和消费者......我可以安全地执行生产者多长时间(因为我需要它运行一段时间以获得正确的趋势计数..( ?

如果我在AWS等云平台上运行它会更好吗?

目前尚不清楚您正在使用的时间窗口,也不清楚 Kafka 在哪里运行。计算 10 分钟或一小时左右的趋势,应该不会占用 Spark 群集上的太多磁盘。

Kafka存储当然需要足够大以满足您的用例。

推文不是很大。过滤掉主题标签只会使它们更小。

注意:Spark似乎有点矫枉过正,因为你可以用Kafka Connect进行摄取,ksqlDB进行计算

我同意。 存储一直是运行流媒体服务器时的困境,AWS拥有Amazon MSK,这是一个托管的Kafka流媒体服务器,它的优点是您可以集成s3进行备份,除了持久性之外,其成本比本地存储低得多,EBS存储也可以即时预置

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

最新更新