Spark Storm或Flink -大数据分析



如果我在Cassandra表(3节点集群)中有一个大数据集,并且我需要对每天收到的记录执行求和操作,谁能推荐我可以探索哪种技术?这样计算出来的计数需要在MySQL表中更新。

 Steps to perform - 
 1. Fetch Ids from MY SQL table
 2. Run Sum operation from Cassandra table
 3. Insert/update the calculated sum value in MYSQL table

目前我使用普通Java使用SQL和CQL查询来执行这些任务,但它非常慢,未来数据将呈指数级增长。

谁能提出一些技术建议,以最快的方式和最短的开发时间完成这项任务?

没有太多的建议,这只取决于你的任务和你自己的喜好。

Apache Storm是一个流引擎,如果你想处理条目流,它会很好,而不是像你的情况那样处理一批数据。

Apache Spark和Apache Flink都允许你每天执行一次批处理作业,或者制作一个计算一天结果的流应用程序。

我更喜欢Apache Spark,因为它为批处理和流作业提供了统一的API(因此您可以轻松地将代码从批处理更改为流处理)和强大的社区支持。Apache Flink支持实时流,但在您的情况下不是必需的。

但是,您应该自己查看这两个框架并选择这个框架,它看起来更适合您。在我看来,他们两个都可以

相关内容

  • 没有找到相关文章

最新更新