小贝子编程

Apache Spark将parquet文件写入S3 bucket后挂起

本文关键字：S3 bucket 挂起 Spark parquet 文件 Apache amazon-s3 apache-spark apache-spark-sql
更新时间 : 2023-08-24
英文 : Apache Spark hangs after writing parquet file to S3 bucket

我使用apache spark 1.3.1与hadoop 2.6库。我也使用了s3a协议。我的作业从s3桶中读取数据，对其进行解析，然后将parquet文件写入另一个桶。它工作得很好，除了任务在完成时挂起并且永远不会退出。任何想法是什么原因导致这一点，有一个资源，我需要关闭?

代码非常基本:

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切顺利完成，然后我的工作就挂了。

所以我们通过将hadoop-aws jar从2.6.0升级到2.7.1来解决这个问题

最新更新

从具有相似前缀的列中划分元素
为什么我的一些网站内容没有加载?
MySQL SELECT没有找到已知值
新的r，抓取列值时，知道另一个
使用Accord.Video.FFMPEG，我得到了"parameter is not valid exception"。我该如何解决？
c -如何获得exec()的输出?
r语言 - 我如何将我的数据帧从宽格式转换为长格式，在不同的时间记录变量?
如何在boost multi_array容器中存储值?
单独的页面vs更新同一页面上的组件
如何创建唯一索引，这需要一组属性是唯一的?
如何触发按钮与键盘和活动
验证中的问题
在java中用空格替换撇号
将请求发送到多环境公共包中的适当API
r语言 - 当变量由几个部分组成时，将 tibble 转换为长格式
返回填充空值的每个月的最新值
如何在循环内外使用来自user的输入变量
如何通过从网站的前端发出 ajax 请求(在同一域上内置 react )来获取 wordpress 中的当前用户 ID
标记器更改词汇表条目
python请求和concurrent.futures问题
删除新提要中不存在的旧行
如何在颤振中将可变大小的小部件剪辑为固定大小?
限制安排数量
在r的嵌套列表内计算
JavaScript使用自定义布尔值对日期排序
Quarkus K8S操作器-运行测试时NoSuchField异常
从抓取数据中重新格式化字符串以满足关键字参数
PHP setCookie的子域在前端不是相同的子域
如何更改Kubeflow管道循环运行的参数?
是否有一种方法可以有条件地注册类型作为.net依赖注入的回退?

Apache Spark将parquet文件写入S3 bucket后挂起

相关内容

最新更新

热门标签：