使用pyspark读取具有相同列但不同顺序的多个文件



假设我有两个文件。

file0.txt

<表类> field1 field2 tbody><<tr>1212

可以一次读取一个,然后并并,就像这样,

import glob
path = 'test_data/'
files=glob.glob(path +'*.txt')
for idx,f in enumerate(files):
if idx == 0:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df = df
else:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df=final_df.unionByName(df)

输出:

+------+------+
|field1|field2|
+------+------+
|     1|     2|
|     1|     2|
|     1|     2|
|     1|     2|
+------+------+

相关内容

  • 没有找到相关文章

最新更新