获得更多关于相同的见解
在Apache spark UI在阶段级别的指标之一是"峰值执行内存"?
Peak Execution memory
是指在shuffle、aggregation和join过程中创建的内部数据结构所使用的内存。这个累加器的值应该近似于该任务中创建的所有此类数据结构的峰值大小之和。对于SQL作业,这只跟踪所有不安全的操作符、广播连接和外部排序。
您可以使用Tracking spark的内存使用
在SPARK-8735中引入了峰值执行内存度量。这是在缺省情况下启用Tungsten之前,因此它假定spark.sql.unsafe.enabled
必须显式地设置为true。
也看看SPARK-10144