如何重命名现有的SPARK SQL功能



我正在使用Spark在用户提交的数据上调用功能。

如何将已经存在的函数重命名为诸如REGEXP_REPLACE(例如REPLACE)之类的其他名称?

我尝试了以下代码:

ss.udf.register("REPLACE", REGEXP_REPLACE)           // This doesn't work
ss.udf.register("sum_in_all", sumInAll)
ss.udf.register("mod", mod)
ss.udf.register("average_in_all", averageInAll)

用别名导入它:

import org.apache.spark.sql.functions.{regexp_replace => replace }
df.show
+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
+---+
df.withColumn("replaced", replace($"id", "(\d)" , "$1+1") ).show
+---+--------+
| id|replaced|
+---+--------+
|  0|     0+1|
|  1|     1+1|
|  2|     2+1|
|  3|     3+1|
|  4|     4+1|
|  5|     5+1|
|  6|     6+1|
|  7|     7+1|
|  8|     8+1|
|  9|     9+1|
+---+--------+

要使用Spark SQL进行操作,您必须以不同的名称重新注册hive的功能:

sqlContext.sql(" create temporary function replace 
                 as 'org.apache.hadoop.hive.ql.udf.UDFRegExpReplace' ")
sqlContext.sql(""" select replace("a,b,c", "," ,".") """).show
+-----+
|  _c0|
+-----+
|a.b.c|
+-----+

相关内容

  • 没有找到相关文章

最新更新