小贝子编程

在AWS S3中，使用AWS Glue ETL python spark(pyspark)将多个镶木地板文件合并为一个镶

本文关键字：AWS 木地板文件一个合并 pyspark S3 使用 Glue spark python amazon-s3 pyspark parquet aws-glue
更新时间 : 2023-09-18
英文 : Merge multiple parquet files to single parquet file in AWS S3 using AWS Glue ETL python spark (pyspark)

我每15分钟运行一次AWS Glue ETL作业，每次在S3中生成1个镶木地板文件。

我需要创建另一个作业，以便在每小时结束时运行，使用AWS Glue ETL pyspark代码将S3中的所有4个镶木地板文件合并为1个镶木文件。

有人试过吗？建议和最佳实践？

提前感谢！

嗯。。一个简单的选择是将其转换为spark数据帧

1( 将镶木地板读取为动态帧(或者更好的是，将其读取为spark数据帧(2( sourcedf.toDF((.重新分区(1(

最新更新

discord.js v13交互按钮删除原始消息
在Flutter中默认禁用BlocBuilder中的TextButton
如果数据已经被获取，如何防止Redux工具包中的加载状态
Javascript:在深度嵌套的数组和对象中查找匹配的属性值
将本地时间转换为用户首选时区，将用户首选时区转换为GMT
为什么 AWS Web 应用程序的前端和后端在这些关系图中直接连接？
是否有一个顺序Java正则表达式?
如何向右移动一个字符串n个字符
我应该从存储库返回任务<IEnumerable<T>>还是IAsyncEnumerable<T>？
Python处理程序错误-没有足够的值来解包
使用 javascript 获取最接近和最高的 id
如何利用向量化技术提高MATLAB程序的效率
如何将PostgreSQL查询转换为LINQ或lambda表达式
Python mysql-connector-python:如何使用mysql-connector-python从终端连
新的json数据不显示在android
如果不同时更改当前头像，则无法更新用户详细信息
Kotlin HTTP GET 数据并插入到文本视图中
滑块在移动设备上不跟随手指
释放WKNavigationAction子类在iOS 15上崩溃
gst_video_time_code_is_valid在向流添加时间码时断言失败
如何杀死Mac上每次重新启动的进程?
CMake：如何防止'target_link_libraries'将Visual Studio项目引用添加到静态库中？
飞镖编码/解码类不起作用
ADF - Dynamic Sheet
无法使用处理程序保存图像。 "Physical path, but a virtual path was expected."
在挂载/卸载组件之间重用WebGL上下文
可以从Azure Blob Storage下载文件
Flutter:选中复选框时如何更改标题:TextStyle ?
为什么在反应中手动改变状态是一个反模式?
我们如何从"git 日志"中排除"由'git notes add'添加的注释"？

在AWS S3中，使用AWS Glue ETL python spark(pyspark)将多个镶木地板文件合并为一个镶

相关内容

最新更新

热门标签：