使用 Spark 对关系非分片数据存储(例如 MySQL)进行描述性分析是否有意义?



正如标题所说,我们的数据存在于托管的MySQL数据库中,没有分片或集群。

在这种情况下,Spark

的架构优势(内存中并行处理,跨多个数据集连接的能力(是否适用,或者从IO的角度来看,MySQL是否成为瓶颈,使Spark的好处无效?

听起来普通

的旧SQL在您的情况下会更好地工作 - 除非您计划迁移到更多样化的后端和/或从MySQL迁移出去

最新更新