r语言 - dplyr可以使用向量修改多列火花DF吗? - r - Can dplyr modify multiple columns of spark DF using a vector? 小贝子编程网

我是刚开始接触火花的。我想将 Spark 数据帧的大量列乘以向量中的值。到目前为止，对于mtcars，我使用了for循环和mutate_at如下：

library(dplyr)
library(rlang)
library(sparklyr)
sc1 <- spark_connect(master = "local")
mtcars_sp = sdf_copy_to(sc1, mtcars, overwrite = TRUE)
mtcars_cols = colnames(mtcars_sp)
mtc_factors = 0:10 / 10
# mutate 1 col at a time
for (i in 1:length(mtcars_cols)) {
# set equation and print - use sym() convert a string
mtcars_eq = quo( UQ(sym(mtcars_cols[i])) * mtc_factors[i])
# mutate formula - LHS resolves to a string, RHS a quosure
mtcars_sp = mtcars_sp %>% 
mutate(!!mtcars_cols[i] := !!mtcars_eq )
}
dbplyr::sql_render(mtcars_sp)
mtcars_sp

这适用于 mtcars。但是，它会导致嵌套的 SQL 查询被发送到 spark，如sql_render所示，并分解为许多列。在这种情况下，可以使用 dplyr 来发送单个 SQL 查询吗？

顺便说一句，我宁愿不转置数据，因为它太贵了。任何帮助将不胜感激！

一般来说，你可以使用阿尔乔姆·索科洛夫的伟大答案

library(glue)
mtcars_sp %>% 
mutate(!!! setNames(glue("{mtcars_cols} * {mtc_factors}"), mtcars_cols) %>% 
lapply(parse_quosure))

但是，如果这是MLlib算法的输入，那么ft_vector_assembler与ft_elementwise_product结合使用可能更适合：

scaled <- mtcars_sp %>% 
ft_vector_assembler(mtcars_cols, "features") %>% 
ft_elementwise_product("features", "features_scaled", mtc_factors)

结果可以分为单独的列(如果你使用 MLlib，我不建议这样做)，sdf_separate_column：

scaled %>% 
select(features_scaled) %>% 
sdf_separate_column("features_scaled", mtcars_cols)

r语言 - dplyr可以使用向量修改多列火花DF吗?

相关内容

最新更新

热门标签：