Spark udf initialization



我想在Spark SQL中创建一个自定义的基于正则表达式的UDF。我的偏好是创建一个内存驻留

 Map[String,Pattern]

其中Pattern指的是字符串键的已编译regex版本。但要做到这一点,我们需要将映射创建放入UDF的"初始化"函数中。

那么,Spark udf是否有任何结构支持跨调用的持久状态(通过Spark SQL)?

注意,HIVE确实支持UDF的生命周期。作为初始化的一部分,我使用它来生成Parse Trees,这样UDF的实际调用就可以在不涉及解析的情况下针对闪电般快速的树。

让我们从导入和一些伪数据开始:

import org.apache.spark.sql.functions.udf
import scala.util.matching.Regex
import java.util.regex.Pattern
val df = sc.parallelize(Seq(
  ("foo", "this is bar"), ("foo", "this is foo"),
  ("bar", "foobar"), ("bar", "foo and foo")
)).toDF("type", "value")

和地图:

val patterns: Map[String, Pattern] = Seq(("foo", ".*foo.*"), ("bar", ".*bar.*"))
   .map{case (k, v) => (k, new Regex(v).pattern)}
   .toMap

现在我看到两种不同的选择:

  • 使patterns成为udf 中引用的广播变量

    val patternsBd = sc.broadcast(patterns)
    val typeMatchedViaBroadcast = udf((t: String, v: String) =>
      patternsBd.value.get(t).map(m => m.matcher(v).matches))
    df.withColumn("match", typeMatchedViaBroadcast($"type", $"value")).show
    // +----+-----------+-----+
    // |type|      value|match|
    // +----+-----------+-----+
    // | foo|this is bar|false|
    // | foo|this is foo| true|
    // | bar|     foobar| true|
    // | bar|foo and foo|false|
    // +----+-----------+-----+
    
  • 关闭内的通行图

    def makeTypeMatchedViaClosure(patterns: Map[String, Pattern]) = udf(
      (t: String, v: String) => patterns.get(t).map(m => m.matcher(v).matches))
    val typeMatchedViaClosure = makeTypeMatchedViaClosure(patterns)
    df.withColumn("match", typeMatchedViaClosure($"type", $"value")).show
    // +----+-----------+-----+
    // |type|      value|match|
    // +----+-----------+-----+
    // | foo|this is bar|false|
    // | foo|this is foo| true|
    // | bar|     foobar| true|
    // | bar|foo and foo|false|
    // +----+-----------+-----+
    

相关内容

  • 没有找到相关文章

最新更新