如何将多个目录中的多个 .parquet 文件读取到单个熊猫数据帧中?



我需要从多个目录中读取镶木地板文件。

例如

Dir---
|
----dir1---
|
.parquet
.parquet
|
----dir2---
|
.parquet
.parquet
.parquet

有没有办法将这些文件读取到单个熊猫数据帧?

注意: 所有的镶木地板文件都是使用 pyspark 生成的。

在列表理解中使用read_parquetconcatglobwith**(python 3.5+( 生成的所有文件:

import pandas as pd
import glob
files = glob.glob('Dir/**/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])

最新更新