>我正在尝试为Spark SQL DataFrame编写一个多值过滤器。
我有:
val df: DataFrame // my data
val field: String // The field of interest
val values: Array[Any] // The allowed possible values
我正在尝试提出过滤器规格。
目前,我有:
val filter = values.map(value => df(field) === value)).reduce(_ || _)
但是,在我收到空值列表的情况下,这并不可靠。 为了涵盖这种情况,我想:
val filter = values.map(value => df(field) === value)).fold(falseColumn)(_ || _)
但我不知道如何指定假列。
有人知道该怎么做吗?
有没有更好的方法来编写这个过滤器?(如果是这样,我仍然需要如何获得假列的答案 - 我需要一个单独的 trueColumn (。
始终为真的列:
val trueColumn = lit(true)
始终为假的列:
val falseColumn = lit(false)
使用 lit(...)
意味着无论数据帧包含哪些列,这些列都将始终是有效的列。