我的日期时间字段格式为:2016-10-15 00:00:00在将数据保存到 Parquet 文件时使用推断架构后,我有几行不符合此格式。
如何在 PySpark 中共同删除它们?
它在我的 UDF 中给我带来了问题。
假设您正在解析日期列,并且具有无效日期的行为 null,通常情况是:
df.filter(col('date').isNotNull())
或者,如果您的日期被读取为字符串,您可以使用unix_timestamp
来解析它:
(
df
.select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
.filter(col('date').isNotNull())
)