当作业运行相当长的一段时间时,某些application_id的 Spark UI 会很慢



当我在 Spark UI 中单击长时间运行的作业(例如 24 小时(的application_id时,加载阶段需要很长时间。我不知道它是否与我的 Spark 配置或我的部署模式客户端有关。以下是我的火花配置的更多信息:

--master yarn 
--deploy-mode client 
--driver-memory 12g 
--executor-memory 8g 
--executor-cores 4 
--num-executors 108 

UI 正在驱动程序的计算机上运行。因此,如果计算机的 RAM 不足,UI 会变得非常慢。

在这里,我看到您为驱动程序请求了12GB的RAM。这是很多,如果这是计算机上所有可用的内存,那么 UI 在某些时候变得非常慢是有道理的。这个过程只应该驱动计算并在工作线程之间共享。

我猜您正在收集大量数据,这通常不是一个好主意。(见 https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dont_call_collect_on_a_very_large_rdd.html(

更好的选择是将RDD写入文件或分布式数据库。

最新更新