R：使用 mclapply 加载多个 RData 不起作用

我想在一个命令中加载多个RData，正如Johua使用所解释的那样

> lapply(c(a_data, b_data, c_data, d_data), load, .GlobalEnv)
[[1]]
[1] "nRTC_Data"
[[2]]
[1] "RTA_Data"
[[3]]
[1] "RTC_Data"
[[4]]
[1] "RTA_Data"
> rm(a_data, b_data, c_data, d_data); ls()
[1] "nRTC_Data"       "RTA_Data"           "RTAC_data"     "RTC_Data"

然而，由于我的RData很大，并且我发现lappy()和多个load()之间没有时间改进，所以我决定使用以下多核方法：

library(parallel)
mclapply(c(a_data, b_data, c_data, d_data),load,.GlobalEnv, mc.cores = parallel::detectCores())

虽然这显著改善了加载时间，但也返回了列表

[[1]]
[1] "nRTC_Data"

[[2]]
[1] "RTA_Data"

[[3]]
[1] "RTC_Data"

[[4]]
[1] "RTA_Data"

在我的工作区中，没有找到

> rm(a_data, b_data, c_data, d_data); ls()
character(0)

我也尝试用environment()替换.GlobalEnv，但仍然没有成功。

有人知道线索吗？

仅供参考，您可以尝试以下命令：

> a = "aa";save(a, file = "aa.RData")
> b = "bb";save(b, file = "bb.RData")
> c = "cc";save(c, file = "cc.RData")
> d = "dd";save(d, file = "dd.RData")
> # lapply approach
> rm(list = ls())
> a = "aa.RData"; b = "bb.RData"; c = "cc.RData"; d = "dd.RData"
> lapply(c(a, b, c, d), load, .GlobalEnv); rm(a, b, c, d) 
> # mclapply approach
> rm(list = ls())
> a = "aa.RData"; b = "bb.RData"; c = "cc.RData"; d = "dd.RData"
> mclapply(c(a, b, c, d), load, .GlobalEnv, mc.cores = parallel::detectCores()); rm(a, b, c, d)

我认为这是因为当使用mclapply时，底层的分叉会创建单独的进程。在下面的代码中，我使用mclapply和myload函数，该函数加载Rdata文件并返回加载的对象。与您的lapply版本的不同之处在于，您在mclapply返回的列表中有数据

myload <- function(x){
x <- load(x)
get(x)
}
a = "aa.RData"; b = "bb.RData"; c = "cc.RData"; d = "dd.RData"
res <- mclapply(c(a, b, c, d), myload, mc.cores = parallel::detectCores());

相关内容

最新更新

热门标签：