小贝子编程

PySpark 删除列中的无效日期时间格式

我的日期时间字段格式为：2016-10-15 00：00：00在将数据保存到 Parquet 文件时使用推断架构后，我有几行不符合此格式。

如何在 PySpark 中共同删除它们？

它在我的 UDF 中给我带来了问题。

假设您正在解析日期列，并且具有无效日期的行为 null，通常情况是：

df.filter(col('date').isNotNull())

或者，如果您的日期被读取为字符串，您可以使用unix_timestamp来解析它：

(
    df
    .select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
    .filter(col('date').isNotNull())
)

最新更新