在Spark中使用dplyr pivot函数使用sparklyr



我正在使用CMS中的一个大型数据集,它目前存储在连接到我的Spark集群的Hive表中。

到目前为止,我还无法让dplyr pivot函数工作,所以我一直在收集数据,然后在R.中对数据运行一大堆dplyr谓词

最近,我的一些最新处理步骤内存不足,我想知道我的操作是否可以在Spark中完成,而不是在本地完成。

TL;博士

dplyr pivot_langer在Spark上运行吗?

原来你可以在spark数据帧上运行dplyr谓词,回到我的纱线集群上的绘图板上

library(sparklyr)
library(tidyverse)
spark_install(version = "3.0.3", hadoop_version = "3.2")
spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')
sc <- spark_connect(master = "local")
tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")
x <- tbl_mtcars %>% 
group_by(cyl) %>% 
pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
collect()

最新更新