Spark Storm或Flink -大数据分析

如果我在Cassandra表(3节点集群)中有一个大数据集，并且我需要对每天收到的记录执行求和操作，谁能推荐我可以探索哪种技术?这样计算出来的计数需要在MySQL表中更新。

 Steps to perform - 
 1. Fetch Ids from MY SQL table
 2. Run Sum operation from Cassandra table
 3. Insert/update the calculated sum value in MYSQL table

目前我使用普通Java使用SQL和CQL查询来执行这些任务，但它非常慢，未来数据将呈指数级增长。

谁能提出一些技术建议，以最快的方式和最短的开发时间完成这项任务?

没有太多的建议，这只取决于你的任务和你自己的喜好。

Apache Storm是一个流引擎，如果你想处理条目流，它会很好，而不是像你的情况那样处理一批数据。

Apache Spark和Apache Flink都允许你每天执行一次批处理作业，或者制作一个计算一天结果的流应用程序。

我更喜欢Apache Spark，因为它为批处理和流作业提供了统一的API(因此您可以轻松地将代码从批处理更改为流处理)和强大的社区支持。Apache Flink支持实时流，但在您的情况下不是必需的。

但是，您应该自己查看这两个框架并选择这个框架，它看起来更适合您。在我看来，他们两个都可以

相关内容

最新更新

热门标签：