Spark UDF 不适用于双精度字段中的空值

我正在尝试编写一个火花UDF，用0.0替换双精度字段的空值。我正在使用数据集 API。这是 UDF：

val coalesceToZero=udf((rate: Double) =>  if(Option(rate).isDefined) rate else 0.0)

这是基于我测试工作正常的以下功能：

def cz(value: Double): Double = if(Option(value).isDefined) value else 0.0
cz(null.asInstanceOf[Double])
cz: (value: Double)Double
res15: Double = 0.0

但是当我在 Spark 中以以下方式使用它时，UDF 不起作用。

myDS.filter($"rate".isNull)
.select($"rate", coalesceToZero($"rate")).show
+----+---------+
|rate|UDF(rate)|
+----+---------+
|null|     null|
|null|     null|
|null|     null|
|null|     null|
|null|     null|
|null|     null|
+----+---------+

但是，以下工作：

val coalesceToZero=udf((rate: Any) =>  if(rate == null) 0.0 else rate.asInstanceOf[Double])

所以我想知道 Spark 是否有一些特殊的方式来处理空双精度值。

scala.Double无法null，您使用的功能似乎只是因为：

scala> null.asInstanceOf[Double]
res2: Double = 0.0

(您可以在 If int 不能为 null，null.asInstanceOf[Int] 中找到描述此行为的出色答案？(。

如果myDS是静态类型数据集，正确的方法是使用Option[Double]：

case class MyCaseClass(rate: Option[Double])

或java.lang.Double：

case class MyCaseClass(rate: java.lang.Double)

其中任何一个都允许您使用静态类型API(不是SQL/DataFrame(处理nulls，从性能角度来看，后一种表示形式是有利的。

一般来说，我建议使用 SQL API 填充NULLs：

import org.apache.spark.sql.functions.{coalesce, lit}
myDS.withColumn("rate", coalesce($"rate", lit(0.0)))

或DataFrameNaFunctions.fill：

df.na.fill(0.0, Seq("rate"))

在将Dataset[Row]转换为Dataset[MyCaseClass]之前。

相关内容

最新更新

热门标签：