我有一个整数列,它实际上是一个日期。
喜欢这个 20170101 20170103 20170102 .....
20200101
每个分区中大约有 1000 万行。
如何在 pySpark 中使用此字段作为分区列读取表?
运行 Spark SQL -
spark.sql("select * from table where intPartitionColumn=20200101")
这会将分区过滤器推送到源目录intPartitionColumn=20200101
只读目录。
您也可以检查实体计划(PartitionFilters
和PushedFilters
(以验证相同