在 Linux 中使用 mclapply 时，R 中出现奇怪的段错误

我遇到了这个奇怪的段错误，并且不知道如何解决它。我正在运行一些马尔可夫链蒙特卡罗算法(一种近似分布的顺序算法)。我并行化此算法的每个迭代。所以它是这样的

for (iter in 1:T){
res[iter] = mclapply(fun)
}

现在奇怪的是，当我的数据集大小相对适中时，算法可以毫无问题地运行。然后我增加数据集大小(80,000 个观测值，不是超大)，该算法适用于前一千次迭代，然后因segfault错误而停止。我已经粘贴了下面的错误：

*** caught segfault ***
address 0x20, cause 'memory not mapped'
Traceback:
1: mcfork()
2: FUN(X[[i]], ...)
3: lapply(seq_len(cores), inner.do)
4: mclapply(1:n, FUN = function(k) { return(OptimRE(dataSummaries[[k]], mu + beta, v, vre))}, mc.cores = ncores)
5: getMargLikelihood0(dataSummaries_layer1[[k]], mu, v, vre, beta[k],    logarithm = TRUE)
6: FUN(X[[i]], ...)
7: lapply(X = S, FUN = FUN, ...)
8: doTryCatch(return(expr), name, parentenv, handler)
9: tryCatchOne(expr, names, parentenv, handlers[[1L]])
10: tryCatchList(expr, classes, parentenv, handlers)
11: tryCatch(expr, error = function(e) {    call <- conditionCall(e) if (!is.null(call)) {        if (identical(call[[1L]], quote(doTryCatch)))             call <- sys.call(-4L)        dcall <- deparse(call)[1L]        prefix <- paste("Error in", dcall, ": ") LONG <- 75L        msg <- conditionMessage(e)        sm <- strsplit(msg, "n")[[1L]]        w <- 14L + nchar(dcall, type = "w") + nchar(sm[1L], type = "w")        if (is.na(w))             w <- 14L + nchar(dcall, type = "b") + nchar(sm[1L],                 type = "b")    if (w > LONG)             prefix <- paste0(prefix, "n  ")    }    else prefix <- "Error : "    msg <- paste0(prefix, conditionMessage(e), "n") .Internal(seterrmessage(msg[1L]))    if (!silent && identical(getOption("show.error.messages"),     TRUE)) { cat(msg, file = stderr())        .Internal(printDeferredWarnings())    }    invisible(structure(msg, class = "try-error", condition = e))})
12: try(lapply(X = S, FUN = FUN, ...), silent = TRUE)
13: sendMaster(try(lapply(X = S, FUN = FUN, ...), silent = TRUE))
14: FUN(X[[i]], ...)
15: lapply(seq_len(cores), inner.do)
16: mclapply(1:length(beta), FUN = function(k) { return(getMargLikelihood0(dataSummaries_layer1[[k]], mu,         v, vre, beta[k], logarithm = TRUE))}, mc.cores = ncores)
17: getMargLikelihood(dataSummaries_layer1, newm, news, newv, beta1)
18: FitPoissRegNRE(my[j, ], groupid, id1, id2, nb = nb, nc = nc,     sig = sig, a = a, b = b, a2 = a2[j], b2 = b2[j], ps_m = ps_m,     ps_s = ps_s, njump = njump)
19: ApplyFitPoissRegNRE(y, hashABC, hashAB, hashA, nb = 200, nc = 800,   sig = 1000, a = 2, b = 2, a2 = rep(100, 3), b2 = rep(5, 3),     ps_m = 0.01, ps_s = 0.03, njump = 4)
20: eval(expr, envir, enclos)
21: eval(ei, envir)
22: withVisible(eval(ei, envir))

我用谷歌搜索过，有些人确实在 R 中遇到了这个segfalut问题，他们通常建议的是一些版本冲突，应该重新安装 R。但就我而言，奇怪的是我的算法在前一千次迭代中工作正常。我也在没有并行化的情况下运行它，它也可以正常工作。

谁能提出造成这种情况的一些可能原因？现在我完全没有方向。

谢谢！

每次调用mclapply函数都可能离开僵尸进程。由于您反复调用它，因此您可能会积累大量它们，最终导致问题。

您可以使用inline包创建一个函数，该函数等待所有子进程以摆脱僵尸进程：

library(inline)
includes <- '#include <sys/wait.h>'
code <- 'int wstat; while (waitpid(-1, &wstat, WNOHANG) > 0) {};'
wait <- cfunction(body=code, includes=includes, convention='.C')

如果您在mclapply后在for循环中调用wait，它应该摆脱任何僵尸并将其作为可能的问题消除：

for (iter in 1:T) {
res[iter] = mclapply(1:10, fun)
wait()
}

除了史蒂夫建议检查僵尸进程之外的评论：看起来您的代码正在生成递归mclapply(..., mc.cores = ncores)调用;

4: mclapply(1:n, FUN = function(k) { return(OptimRE(dataSummaries[[k]], mu + beta, v, vre))}, mc.cores = ncores)
[...]
16: mclapply(1:length(beta), FUN = function(k) { return(getMargLikelihood0(dataSummaries_layer1[[k]], mu, v, vre, beta[k], logarithm = TRUE))}, mc.cores = ncores)

换句话说，在每次迭代中，您最终可能会得到"ncores * ncores"分叉进程。我不知道这里的两个ncores是什么，但一定要检查一下这是否真的是你想要的。

相关内容

最新更新

热门标签：