如果我在Cassandra表(3节点集群)中有一个大数据集,并且我需要对每天收到的记录执行求和操作,谁能推荐我可以探索哪种技术?这样计算出来的计数需要在MySQL表中更新。
Steps to perform -
1. Fetch Ids from MY SQL table
2. Run Sum operation from Cassandra table
3. Insert/update the calculated sum value in MYSQL table
目前我使用普通Java使用SQL和CQL查询来执行这些任务,但它非常慢,未来数据将呈指数级增长。
谁能提出一些技术建议,以最快的方式和最短的开发时间完成这项任务?
没有太多的建议,这只取决于你的任务和你自己的喜好。
Apache Storm是一个流引擎,如果你想处理条目流,它会很好,而不是像你的情况那样处理一批数据。
Apache Spark和Apache Flink都允许你每天执行一次批处理作业,或者制作一个计算一天结果的流应用程序。
我更喜欢Apache Spark,因为它为批处理和流作业提供了统一的API(因此您可以轻松地将代码从批处理更改为流处理)和强大的社区支持。Apache Flink支持实时流,但在您的情况下不是必需的。
但是,您应该自己查看这两个框架并选择这个框架,它看起来更适合您。在我看来,他们两个都可以