spark是否重新计算在新作业中再次持久化到磁盘的RDD ?



假设我的spark应用程序由2个作业组成。

Job-1:由单个阶段组成,该阶段的结果被持久化

rdd1.persist(DISK_ONLY)

Job-2:使用计算出的rdd1。但是,当我查看执行DAG时,我看到job-1中导致rdd1的所有步骤都表示为蓝色框。虽然实际的rdd是绿色的

这是否意味着导致rdd的操作实际上被跳过了?

No这实际上是SparkUI的一个缺点。它只计算rdd1之后的步长。虽然它会以蓝色显示整个阶段

最新更新