小贝子编程

使用两个作业火花在同一存储库内的HDFS中同时写入

本文关键字：存储 HDFS 两个火花作业 apache-spark hdfs
更新时间 : 2023-09-11
英文 : Use two job spark to write at the same time in HDFS inside the same repositor

我想知道在同一目录HDFS中同时编写(SaveMode.Append(是否是一种不好的做法，有两个作业Spark。你有什么想法吗？

这不是一个坏做法，但实际上，如果工作一个接一个地被链接。错过一个作业的输出的可能性非常高。

示例 Spark job1 和 job2 写入 hdfs 路径/user/output。Spark 作业 3 从 hdfs 路径使用。

如果您尝试从 oozie 构建作业链，则可能会出现作业 1 和作业 3 运行的情况，而 JOb 2 在作业 3 之后运行，导致作业 2 数据未从作业 3 消耗

最新更新

从对象中获取一个值，并使用该值在一个条件下填充同一对象中的其他键
Java:具有不同主机头和目的地的Http请求
表单中的 Submit按钮在第二次点击后生效.ReactJS
未定义名称"文件"。运行 XBRL 代码时
通过布尔级数进行过滤
模拟器错误，其中SF符号不显示在UIKit(但在SwiftUI工作)
为什么我的 shell 脚本循环在 Linux 中不起作用？
reactjs useState empty array
将Plotly Dash中的数据存储到外部对象
删除划线文本时错误400
是否有办法将表中的一个字段中的数据分割成两个字段(列)在MySQL中打印
postgresql-为什么行共享锁与行独占锁冲突?
Google drive API (v2)无法下载一些文件(扩展名为xlsx,pdf)
Google Apps Script简单递归脚本运行非常慢
显示django admin中链接模型字段的信息
如何使列表中的图像每个带你到不同的页面，当你点击他们在扑动?
如何使用数组包含方法.我的方式行不通
c#:在ASP中设置日期时间格式净反应?
下一页身份验证火基后端"ReferenceError: Cannot access 'app' before initialization"
三个下拉选择
如何忽略失败的请求并继续响应下一个请求?
对象值没有显示在ejb中
插入或更新具有特定值的列
访问以前定义的变量时获取"NameError: name not defined"
读取 FSNF 内部的值在外部读取时会给出不同的值?
如何将向量中的相邻时间段连字符连接到分组字符串中
使用React时如何从python文件发送stdin和接收stdout ?
如何使guid的系统空值为空?
如何使用属于web应用程序的cli Go文件?
ABAP 7.4如何从一个tab填充另一个tab ?

使用两个作业火花在同一存储库内的HDFS中同时写入

相关内容

最新更新

热门标签：