使用两个作业火花在同一存储库内的HDFS中同时写入



我想知道在同一目录HDFS中同时编写(SaveMode.Append(是否是一种不好的做法,有两个作业Spark。你有什么想法吗?

这不是一个坏做法,但实际上,如果工作一个接一个地被链接。错过一个作业的输出的可能性非常高。

示例 Spark job1 和 job2 写入 hdfs 路径/user/output。Spark 作业 3 从 hdfs 路径使用。

如果您尝试从 oozie 构建作业链,则可能会出现作业 1 和作业 3 运行的情况,而 JOb 2 在作业 3 之后运行,导致作业 2 数据未从作业 3 消耗

最新更新