假设我有两个文件。
file0.txt
<表类>
field1
field2
tbody><<tr>1 2 12 表类>
可以一次读取一个,然后并并,就像这样,
import glob
path = 'test_data/'
files=glob.glob(path +'*.txt')
for idx,f in enumerate(files):
if idx == 0:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df = df
else:
df = spark.read.csv(f, sep=',', header=True, inferSchema=True)
final_df=final_df.unionByName(df)
输出:
+------+------+
|field1|field2|
+------+------+
| 1| 2|
| 1| 2|
| 1| 2|
| 1| 2|
+------+------+