如何按两个日期格式列之间的日期筛选 python Spark 数据帧



我正在使用pyspark 2.1,我有一个数据帧,其中有两列,日期格式如下:

Column A ,  START_DT       ,  END_DT
1        ,  2016-01-01     ,  2020-02-04
16       ,  2017-02-23     ,  2017-12-24

我想过滤 START_DTEND_DT 日期之间的某个日期(例如 2018-12-31 ((在那里的示例中,将过滤第二行(。

START_DT 列和END_DT列都已经是日期格式,我正在寻找像 sql 这样的方法:

SELECT *
FROM  MYTABLE  WHERE  '2018-12-31' BETWEEN start_dt AND end_dt

如果您有有效的 SQL 查询,则始终可以将数据帧注册为临时表并使用spark.sql()

df.createOrReplaceTempView("MYTABLE")
spark.sql("SELECT * FROM MYTABLE WHERE '2018-12-31' BETWEEN start_dt AND end_dt").show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

另一种选择是将表达式传递给where

df.where("'2018-12-31' BETWEEN start_dt AND end_dt").show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

另一种方法是将pyspark.sql.Column.betweenpyspark.sql.functions.lit 一起使用,但您必须使用 pyspark.sql.functions.expr 才能将列值用作参数。

from pyspark.sql.functions import lit, expr
test_date = "2018-12-31"
df.where(lit(test_date).between(expr('start_dt'), expr('end_dt'))).show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

最后,您可以实现自己的between版本:

from pyspark.sql.functions import col
df.where((col("start_dt") <= lit(test_date)) & (col("end_dt") >= lit(test_date))).show()
#+-------+----------+----------+
#|ColumnA|  START_DT|    END_DT|
#+-------+----------+----------+
#|      1|2016-01-01|2020-02-04|
#+-------+----------+----------+

最新更新