检查ArrayType列是否包含null



i具有一个带有一个可以包含整数值的ArrayType列的数据框。如果没有值,它将仅包含一个,它将是null值

重要:请注意,该列不会为空,而是一个具有单个值的数组;null

> val df: DataFrame  = Seq(("foo", Seq(Some(2), Some(3))), ("bar", Seq(None))).toDF("k", "v")
df: org.apache.spark.sql.DataFrame = [k: string, v: array<int>]
> df.show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
|bar|[null]|

问题:我想获取具有空值的行。


我迄今为止尝试过的:

> df.filter(array_contains(df("v"), 2)).show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
+---+------+

对于null,它似乎不起作用

> df.filter(array_contains(df("v"), null)).show()

org.apache.spark.sql.analysisexception:无法解决由于数据类型不匹配,'array_contains( v,null('值不能用作参数;

> df.filter(array_contains(df("v"), None)).show()

java.lang.runtimeException:不支持的字面类型类scala.none $无

在这种情况下不可能使用array_contains,因为无法比较SQL NULL的平等。

您可以这样使用udf

val contains_null = udf((xs: Seq[Integer]) => xs.contains(null))
df.where(contains_null($"v")).show
// +---+------+
// |  k|     v|
// +---+------+
// |bar|[null]|

对于Spark 2.4 ,您可以使用高阶函数exists而不是UDF:

df.where("exists(v, x -> x is null)").show
//+---+---+
//|  k|  v|
//+---+---+
//|bar| []|
//+---+---+

pyspark实施,如果需要:

contains_null = f.udf(lambda x: None in x, BooleanType())
df.filter(contains_null(f.col("v"))).show()

相关内容

  • 没有找到相关文章