Azure数据块性能增强



我有在spark集群上运行的查询。但这需要很长时间。如何提高性能?

  1. 增加集群大小?

  2. 配置的变化,如打乱内存或缓存,会增加

也许您可以查看Databricks DAG中的联接,以研究Spark Join Strategies查询使用的是什么类型的联接。例如,当你的表足够小,可以在一个节点上处理它,而这不是外部联接时,你可以使用最快的广播哈希联接。您可以在这里找到更多信息:https://towardsdatascience.com/strategies-of-spark-join-c0e7b4572bcf

最新更新