假设我的spark应用程序由2个作业组成。
Job-1:由单个阶段组成,该阶段的结果被持久化
rdd1.persist(DISK_ONLY)
Job-2:使用计算出的rdd1。但是,当我查看执行DAG时,我看到job-1中导致rdd1的所有步骤都表示为蓝色框。虽然实际的rdd是绿色的
这是否意味着导致rdd的操作实际上被跳过了?
No这实际上是SparkUI的一个缺点。它只计算rdd1之后的步长。虽然它会以蓝色显示整个阶段