r语言 - spark_apply 无法运行程序"Rscript":在目录"C:\Users\username\AppData\Local\spark\spark



遵循《用R掌握Apache Spark》一书的第一条说明关于spark_apply,在windows下的本地集群上并使用RGui,启动:

install.packages("sparklyr")
install.packages("pkgconfig")
spark_install("2.3")
Installing Spark 2.3.3 for Hadoop 2.7 or later.
spark_installed_versions()
library(dplyr,sparklyr)
sc <- spark_connect(master = "local", version = "2.3.3")
cars <- copy_to(sc, mtcars)    
cars %>% spark_apply(~round(.x))

正在返回以下错误:

spark_apply Cannot run program “Rscript”:  in directory "C:UsersusernameAppDataLocalsparkspark-2.3.3-bin-hadoop2.7tmplocalspark-..userFiles-..  
CreateProcess error=2, The file specified can't be found

如何正确安装sparklyr和如何克服这个错误?

spark节点需要在其路径中执行Rscript。对于主节点,可以使用以下命令设置Rscript可执行文件的路径:

config <- spark_config()
config[["spark.r.command"]] <- "d:/path/to/R-3.4.2/bin/Rscript.exe"
sc <- spark_connect(master = "local", config = config)

让我们在这里找到更多关于分布式环境的解释和指导原则。

最新更新