我正在使用CMS中的一个大型数据集,它目前存储在连接到我的Spark集群的Hive表中。
到目前为止,我还无法让dplyr pivot函数工作,所以我一直在收集数据,然后在R.中对数据运行一大堆dplyr谓词
最近,我的一些最新处理步骤内存不足,我想知道我的操作是否可以在Spark中完成,而不是在本地完成。
TL;博士
dplyr pivot_langer在Spark上运行吗?
原来你可以在spark数据帧上运行dplyr谓词,回到我的纱线集群上的绘图板上
library(sparklyr)
library(tidyverse)
spark_install(version = "3.0.3", hadoop_version = "3.2")
spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')
sc <- spark_connect(master = "local")
tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")
x <- tbl_mtcars %>%
group_by(cyl) %>%
pivot_longer(!cyl,names_to = "variable",values_to = "values") %>%
collect()