我正在寻找一种方法,对DataFrame中具有null数据的文件使用筛选器。下面是我的示例DataFrame,有两个字段:id和value。value字段中有一个空值。
val testData = Array((1,"actualstring1"),(2,null),(3,"actualstring2"),(4,"testString1"))
val testDataDF = sc.parallelize(testData).toDF("id", "value")
我使用下面的代码片段来过滤测试字符串,假设输出有三条记录。令我惊讶的是,我只有以下两项记录:
testDataDF.filter(!col("value").contains("test")).show
得出以下结果:
+---+-------------+
| id| value|
+---+-------------+
| 1|actualstring1|
| 3|actualstring2|
+---+-------------+
在这里,我们看到具有id=2
的记录在这个过滤过程中被忽略。我现在陷入了如何在输出中包括id=2
的行以及我们得到的两行的问题。
感谢任何帮助
将当前条件替换为默认为FALSE
:的条件
not(coalesce(col("value").contains("test"), lit(false))
其中
lit(false)
是布尔文字,
coalesce(_, _)
返回第一个NOT NULL
元素(从左起计数(,如果不存在NULL
,则返回该元素。
您可以在过滤器中测试col("value") != null
:
testDataDF.filter(col("value") != null && !col("value").contains("test")).show