我有一个数字向量,我想为它计算一种累积和。我之所以说"排序",是因为标准的cumsum基本上是cumsum[i] = cumsum[i-1] + x[i]
。然而,在这种情况下,我需要使用cumsum[i] = max(cumsum[i-1] + x[i], x[i])
。
也就是说,如果最近元素的值大于累积和(例如,如果以前有负值,则可能发生这种情况(,则只采用最近元素。
这显然可以通过一个简单的for循环手动完成:
set.seed(1)
x <- runif(10, min = -1, max = 1)
csum <- rep(0, 10)
for(i in seq_along(x)) {
if (i == 1) csum[i] <- x[i]
csum[i] <- max(csum[i-1] + x[i], x[i])
}
x; csum
#> [1] -0.4689827 -0.2557522 0.1457067 0.8164156 -0.5966361 0.7967794
#> [7] 0.8893505 0.3215956 0.2582281 -0.8764275
#> [1] -0.4689827 -0.2557522 0.1457067 0.9621223 0.3654862 1.1622655
#> [7] 2.0516161 2.3732117 2.6314397 1.7550123
由reprex包于2020-04-27创建(v0.3.0(
但是,有没有一种方法可以避免for循环?我一直在想一个,但就是想不出来。
如果相关,我的真实案例将把它应用于数据帧。它将被分组,然后我将创建一个新的列,其中包含每个组的累积总和。但我对这个部分很满意,我就是不知道如何清理这个手术。
我们可以在base R
中使用Reduce
csum2 <- Reduce(function(u, v) max(u + v, v), x, accumulate = TRUE)
-检查OP的输出
identical(csum, csum2)
#[1] TRUE
或者另一个选项是purrr
中的accumulate
library(purrr)
accumulate(x, ~ max(.x + .y, .y))