小贝子编程

如何使用Spark转换文件，同时保持文件夹结构

本文关键字：文件夹结构何使用 Spark 转换文件 apache-spark pyspark
更新时间 : 2023-09-09
英文 : How to convert files with Spark, while keeping folders structure

我有一堆csv文件在Hive分区模式（s3://csvfiles/Y=2017/M=10/D=12/H=23/M=12/...）中按文件夹排序。

因此，我在每个"小时"文件夹中都很少有csv格式的文件。我想将特定小时的所有文件合并为ORC格式的单个文件，将其写入不同的根文件夹，但保留"日期"模式。所以结果将是这样的：

s3://orcfilesY=2017/M=10/D=12/H=23/singlefile.orc

可以用Spark做到这一点吗？

谢谢

repartition 和 partitionBy ：

val n: Int
df
  .partitionBy(n, $"Y", $"M", $"D", $"H")
  .write.partitionBy("Y", "M", "D", "H").orc(...)

最新更新

无法向 Tkinter 窗口添加背景
如何将RGB图像转换为灰度，但保持一种颜色?——Java
我应该在Docker内部还是在虚拟环境中安装气流?
属性错误： 'DataFrame'对象没有属性'assign'
如何在每次在DirectoryInfo.GetFiles()中加载新文件时执行操作?
HTML中的Javascript在Angular中不起作用
如何在firebase中调度大约每整小时运行一次的函数?
Uncaught TypeError:不能访问数组上字符串类型的偏移量
Switch(Select)在TRANSFORM和Select之间工作吗?
MySQL SELECT查询工作，但具有相同WHERE子句的UPDATE查询不工作
drupal 10 localhost站点:如何在安装和注销后访问登录页面
Flutter原生启动画面图像未出现- Flutter (Dart)
用另一个远程分支覆盖一个远程分支
邮递员说"The route api...could not be found."(拉拉维尔)
Firebase Messaging项目Google Analytics升级失败
在初始页面加载时未应用FacetWP查询顺序数组设置
GitHub邀请过期吗?
使用AWS秘密管理器端点的安全组
如何做基于名称和值的点击事件？
在容器和主机上创建具有相同Linux用户id的用户
Firebase身份验证在部署后不工作.扑动Web应用程序显示空白的白色屏幕
AWS Client VPN Access Public URL/IP
python dict get方法即使key在dict中也运行第二个参数
如何在Python中使用每周时间序列
Scss函数没有返回计算值
如何使用conduit获取一个lazy ByteString并将其写入文件(在恒定内存中)
c -内存分配器-简单隔离存储:你如何从它的地址推断分配块的大小?
获取JSON格式的Discord PY对象
如何为作为prop传入的React组件设置类型
在c++中使用new时是否按顺序分配内存?

如何使用Spark转换文件，同时保持文件夹结构

相关内容

最新更新

热门标签：