小贝子编程

使用pyspark读取具有相同列但不同顺序的多个文件

本文关键字：顺序文件读取 pyspark 使用 python dataframe scala pyspark pyspark-schema
更新时间 : 2024-08-22
英文 : Reading multiple files using pyspark with same columns but different ordering

假设我有两个文件。

file0.txt

<表类> field1 field2 tbody><<tr>1212

可以一次读取一个，然后并并，就像这样，

import glob
path = 'test_data/'
files=glob.glob(path +'*.txt')
for idx,f in enumerate(files):
if idx == 0:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df = df
else:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df=final_df.unionByName(df)

输出:

+------+------+
|field1|field2|
+------+------+
|     1|     2|
|     1|     2|
|     1|     2|
|     1|     2|
+------+------+

最新更新

无法从带有Java进程的Docker控制台分离
我可以列出一个数字，如果类实例在一个数组?
显示一次登录屏幕
如何获取defaultColDef中正在处理的单元格的列索引.网格中的cellClass
具有多个worker的可迭代pytorch数据集
如何在刀片模板内编写PHP代码
BIM360提交API文档
React Native API FETCH每个对象的不同名称
如何在Linux mongosh命令行上指定数据库以及身份验证
GitHub Actions CodeQL初始化操作失败
不和谐.js "cannot read properties of undefined"尝试将事件处理程序放入单独的文件中时
Woocommerce如何将钩子中的函数转换为短代码
Oracle SELECT每个不同的列对每个不同的列
将复选框的字符串转换为布尔值
不能使用函数查找数组部分的和(javascript)
如何添加活动类点击角?
如何排序数组列表包含列表作为元素基于自定义所需的顺序
检查目录中是否存在文件的更好方法
用户喜欢的电影api与.net Core使用EF
带有外部身份提供者和角色的Azure AD B2C
Entity Framework 6使用被更新的记录的数据更新所有记录
LinkedServer中SQL Server事务数不匹配
在odoo XML视图中计算
如何唯一地识别木偶浏览器实例?
在java中，在运行时通过唯一的trait(完全限定名/ID/)访问类及其方法的正确/规范方式是什么?
无法从具有 ASP.NET Core 的 Docker 容器连接到 SQL Server 容器
Firefox二进制问题部署Python脚本到Heroku服务器
PHP Laminas PHPStan -调用一个未定义方法LaminasStdlibRequestInterfac
在前一个颤振中工作的颤振窗口管理器.它停止工作，并一直说它是使用弃用的api，因为我升级到null安全
将js对象中的数组对象解析为xml不起作用

使用pyspark读取具有相同列但不同顺序的多个文件

相关内容

最新更新

热门标签：