当我在 Spark UI 中单击长时间运行的作业(例如 24 小时(的application_id时,加载阶段需要很长时间。我不知道它是否与我的 Spark 配置或我的部署模式客户端有关。以下是我的火花配置的更多信息:
--master yarn
--deploy-mode client
--driver-memory 12g
--executor-memory 8g
--executor-cores 4
--num-executors 108
UI 正在驱动程序的计算机上运行。因此,如果计算机的 RAM 不足,UI 会变得非常慢。
在这里,我看到您为驱动程序请求了12GB的RAM。这是很多,如果这是计算机上所有可用的内存,那么 UI 在某些时候变得非常慢是有道理的。这个过程只应该驱动计算并在工作线程之间共享。
我猜您正在收集大量数据,这通常不是一个好主意。(见 https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dont_call_collect_on_a_very_large_rdd.html(
更好的选择是将RDD写入文件或分布式数据库。