小贝子编程

如何使用spark将S3中的parquet文件合并为一个parquet文件

本文关键字：parquet 文件一个合并 S3 中的何使用 spark apache-spark amazon-s3 bigdata parquet
更新时间 : 2024-02-15
英文 : how to combine parquet files in S3 into one parquet file using spark

我有12个拼花文件，每个文件表示每月的New York Taxi上下车信息，由+500K行组成。我想把这12个文件按行合并成1个文件保存在S3中做机器学习模型。我如何使用pyspark做到这一点我将这12个文件上传到AWS S3文件名称

你可以这样做，如果所有文件都在同一个目录:

val ds = spark.read.parquet("/path/*").coalesce(1)
ds.write.parquet("/path/single")

或

val ds1 = spark.read.parquet("/path1/file")
val ds2 = spark.read.parquet("/path2/anotherlocation/file")
val ds = ds1.union(ds2)
ds.coalesce(1).write.parquet("/path/single")

这是一个使用Scala的例子，你可以在Java/Python中做同样的事情。

最新更新

如何实现导航元素的过渡效果?
Use effect运行在依赖条件[count == 2]的下一个值检查上
实体框架更新一条记录删除另一条记录
如何在R编程中展开n次循环?
使用JavaScript随机化css的位置
在react js上使用useState点击submit后重置表单输入字段
为什么 VarCorr 不显示 lmerModLmerTest 或 glmerMod 对象的方差？
自动筛选在文本框(ActiveX)上找到的多个值
MariaDB：错误代码：1005。无法创建表外键约束格式不正确"
如何测试多于输出行的函数
在Android中使用正则表达式搜索文本
JavaScript将全大写字符串中的一个字符改为小写
Pandas:如何删除列值与特定值匹配的行(所有值都是值的列表)
r语言 - 我的占星表的输出为空.为什么
如何为Clang Tidy指定"最大循环"选项？
索引值不在列表中
如何检查是否没有一个但任何Popen子进程仍在运行?
如何根据日期列的1年滞后创建新的度量列?
加速R中的嵌套循环进行距离比较
无法下载依赖项，因为计算机没有互联网连接
UIKit中的Swift Combine.URLSession dataTaskPublisher NSURLError
Postgres查询中冷启动查询性能不一致
r语言 - 如何在同一列内绘制两个不同的对象?
为什么Makefile不包括头文件?
如何在c#中使用反射改变字段时触发回调
Laravel在本地ubuntu 20显示空白页面
bst类结构元素递归插入
localhost:8800/api/auth/register 500(内部服务器错误)试图注册一个新用户
如何在django中重置datetimefield
类似字符串的比较在 PowerShell 中包含"`"(急性)字符时失败

如何使用spark将S3中的parquet文件合并为一个parquet文件

相关内容

最新更新

热门标签：