我有在spark集群上运行的查询。但这需要很长时间。如何提高性能?
-
增加集群大小?
或
-
配置的变化,如打乱内存或缓存,会增加
也许您可以查看Databricks DAG中的联接,以研究Spark Join Strategies查询使用的是什么类型的联接。例如,当你的表足够小,可以在一个节点上处理它,而这不是外部联接时,你可以使用最快的广播哈希联接。您可以在这里找到更多信息:https://towardsdatascience.com/strategies-of-spark-join-c0e7b4572bcf