我想使用 Spark 数据帧按"喜欢"搜索内容我们可以像 SQL 一样使用 'or' 函数来像 SQL '||' 一样进行过滤。
voc_0201.filter(
col("contents").like("intel").or(col("contents").like("apple"))
).count
但是我必须过滤很多字符串,如何将字符串列表或数组过滤到数据帧?
谢谢
我们先定义一下patterns
:
val patterns = Seq("foo", "bar")
并创建一个示例DataFrame
:
val df = Seq((1, "bar"), (2, "foo"), (3, "xyz")).toDF("id", "contents")
一个简单的解决方案是fold
patterns
:
val expr = patterns.foldLeft(lit(false))((acc, x) =>
acc || col("contents").like(x)
)
df.where(expr).show
// +---+--------+
// | id|contents|
// +---+--------+
// | 1| bar|
// | 2| foo|
// +---+--------+
另一种是构建正则表达式并使用rlike
:
val expr = patterns.map(p => s"^$p$$").mkString("|")
df.where(col("contents").rlike(expr)).show
// +---+--------+
// | id|contents|
// +---+--------+
// | 1| bar|
// | 2| foo|
// +---+--------+
PS:如果这不是简单的文字,上述解决方案可能不起作用。
最后,对于简单的模式,您可以使用isin
:
df.where(col("contents").isin(patterns: _*)).show
// +---+--------+
// | id|contents|
// +---+--------+
// | 1| bar|
// | 2| foo|
// +---+--------+
也可以加入:
val patternsDF = patterns.map(Tuple1(_)).toDF("contents")
df.join(broadcast(patternsDF), Seq("contents")).show
// +---+--------+
// | id|contents|
// +---+--------+
// | 1| bar|
// | 2| foo|
// +---+--------+