如何使用pyspark对SQL Server表进行分区,其中分区列是整数但采用日期格式(20170101到2020030



我有一个整数列,它实际上是一个日期。

喜欢这个 20170101 20170103 20170102 .....

20200101

每个分区中大约有 1000 万行。

如何在 pySpark 中使用此字段作为分区列读取表?

运行 Spark SQL -

spark.sql("select * from table where intPartitionColumn=20200101")

这会将分区过滤器推送到源目录intPartitionColumn=20200101只读目录。

您也可以检查实体计划(PartitionFiltersPushedFilters(以验证相同