Spark Kafka 集成在本地机器上进行实时推特流分析的缺点是什么?

我正在使用Spark-Kafka Integration来处理我的项目，即在Twitter上找到最热门的主题标签。为此，我使用 Kafka 通过 tweepy Streaming 推送推文，而在消费者方面，我使用 Spark Streaming 进行 DStream 和 RDD 转换......

我的问题是，通过 Kafka 运行流式处理一段时间是否会导致存储问题，因为我在本地机器上运行生产者和消费者......我可以安全地执行生产者多长时间(因为我需要它运行一段时间以获得正确的趋势计数..( ？

如果我在AWS等云平台上运行它会更好吗？

目前尚不清楚您正在使用的时间窗口，也不清楚 Kafka 在哪里运行。计算 10 分钟或一小时左右的趋势，应该不会占用 Spark 群集上的太多磁盘。

Kafka存储当然需要足够大以满足您的用例。

推文不是很大。过滤掉主题标签只会使它们更小。

注意：Spark似乎有点矫枉过正，因为你可以用Kafka Connect进行摄取，ksqlDB进行计算

。

我同意。存储一直是运行流媒体服务器时的困境，AWS拥有Amazon MSK，这是一个托管的Kafka流媒体服务器，它的优点是您可以集成s3进行备份，除了持久性之外，其成本比本地存储低得多，EBS存储也可以即时预置

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

相关内容