小贝子编程

如何使用pyspark对SQL Server表进行分区，其中分区列是整数但采用日期格式(20170101到2020030

本文关键字：分区整数日期 2020030 20170101 格式 SQL pyspark 何使用 Server apache-spark pyspark apache-spark-sql azure-databricks data-partitioning
更新时间 : 2023-09-17
英文 : How to partition SQL Server table, where partition column is integer but in date format(20170101 to 20200306) using pyspark?

我有一个整数列，它实际上是一个日期。

喜欢这个 20170101 20170103 20170102 .....

20200101

每个分区中大约有 1000 万行。

如何在 pySpark 中使用此字段作为分区列读取表？

运行 Spark SQL -

spark.sql("select * from table where intPartitionColumn=20200101")

这会将分区过滤器推送到源目录intPartitionColumn=20200101只读目录。

您也可以检查实体计划(PartitionFilters和PushedFilters(以验证相同

最新更新