在Spark中使用dplyr pivot函数使用sparklyr

我正在使用CMS中的一个大型数据集，它目前存储在连接到我的Spark集群的Hive表中。

到目前为止，我还无法让dplyr pivot函数工作，所以我一直在收集数据，然后在R.中对数据运行一大堆dplyr谓词

最近，我的一些最新处理步骤内存不足，我想知道我的操作是否可以在Spark中完成，而不是在本地完成。

TL；博士

dplyr pivot_langer在Spark上运行吗？

原来你可以在spark数据帧上运行dplyr谓词，回到我的纱线集群上的绘图板上

library(sparklyr)
library(tidyverse)
spark_install(version = "3.0.3", hadoop_version = "3.2")
spark_home_set('C:/Users/Me/AppData/Local/spark/spark-3.0.3-bin-hadoop3.2')
sc <- spark_connect(master = "local")
tbl_mtcars <- copy_to(sc, mtcars, "spark_mtcars")
x <- tbl_mtcars %>% 
group_by(cyl) %>% 
pivot_longer(!cyl,names_to = "variable",values_to = "values") %>% 
collect()

相关内容

最新更新

热门标签：