我在Java中使用Apache Spark 1.6.2。
我有一个数据帧,其中包含:
- creation_date字段中的日期,
- close_date字段中的结束日期。
如果业务未关闭,则 close_date 中的值为 null。
我想:
- 向我的数据帧添加一个名为 last_date_business 的额外列
- 用 close_date 的值填充它
- 如果close_date为空,则使用 current_date()
我可以要求Spark执行此操作还是应该手动执行此操作?
您在这里只需要一个coalesce
:
import static org.apache.spark.sql.functions.*;
df.withColumn("last_date_business", coalesce(col("close_date"), current_date()));