Sparklyr 中的 r语言 - Concat_ws() 函数丢失



我正在学习有关Web(Adobe(分析的教程,我想在其中构建一个马尔可夫链模型。(http://datafeedtoolbox.com/attribution-theory-the-two-best-models-for-algorithmic-marketing-attribution-implemented-in-apache-spark-and-r/(。

在示例中,他们使用以下函数:concat_ws(来自图书馆(Sparklyr((。但看起来该函数不存在(安装软件包并调用库后,我收到该函数不存在的错误......

博客评论作者:concat_ws是一个Spark SQL函数: https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/sql/functions.html 因此,您必须依靠sparklyr才能使该功能正常工作。

我的问题:是否有访问 concat_ws(( 函数的解决方法?我试过了:

  • 在Github(https://github.com/rstudio/sparklyr(上搜索,如果我能找到函数(或源代码(..不幸的是没有结果..

函数的目标是什么? 使用给定的分隔符将多个输入字符串列连接成单个字符串列。

您可以简单地使用基本 R 中的paste

library(sparklyr)
library(dplyr)
config <- spark_config()
sc <- spark_connect(master = "local", config = config)
df <- as.data.frame(cbind(c("1", "2", "3"), c("a", "b", "c")))
sdf <- sdf_copy_to(sc, df, overwrite = T)
sdf %>%
mutate(concat = paste(V1, V2, sep = "-"))

找不到该函数,因为它不存在于包sparklyrconcat_ws是一个Spark SQL函数(org.apache.spark.sql.functions.concat_ws(。

sparklyr依赖于 SQL 转换层 - 函数调用使用dbplyr转换为 SQL 表达式:

> dbplyr::translate_sql(concat_ws("-", foo, bar))
<SQL> CONCAT_WS('-', "foo", "bar")

这意味着该函数只能在sparklyr上下文中应用:

sc <- spark_connect(master = "local[*]")
df <- copy_to(sc, tibble(x="foo", y="bar"))
df %>% mutate(xy = concat_ws("-", x, y))
# # Source: spark<?> [?? x 3]
#   x     y     xy     
# * <chr> <chr> <chr>  
# 1 foo   bar   foo-bar

我在使用dbplyr(BigQuery数据库(时遇到了类似的问题。

问题

我一直收到错误:

my_dbplyr_object %>%
mutate(datetime_char = paste(date_char, time_char)) 
# failed x Function not found: CONCAT_WS at [1:147] [invalidQuery] 

溶液

我编写了自定义 SQL 并将其放在sql()中。

一旦你知道将生成你所追求的 SQL(在我的例子中是CONCAT(date_char, ' ', time_char)(,那么只需将其放在sql()函数中,如下所示:

my_dbplyr_object %>%
mutate(datetime_char = sql("CONCAT(date_char, ' ', time_char)"))

最新更新