如何使用spark读取某些parquet文件分区?



是否可以使用spark从文件夹中读取某些分区?

我只知道这样:df = spark.read.parquet("/mnt/Staging/file_Name/")

是否有办法只读取那些日期不小于今天减去3个月的分区?

如果你的数据框是按日期划分的,你可以使用filter, spark将只读取这个日期的分区

df = spark.read.parquet("/mnt/Staging/file_Name/").filter(col("your_date_col") === "2022-02-03")

最新更新