r语言 - 正确使用 dplyr 函数在滑动窗口中计算每个产品的销售额，而无需额外的传递或联接 - r - Correct use of dplyr functions to compute per-product sales in sliding-window, without needing extra pass or join? 小贝子编程网

给定一个由以下定义的数据框：

set.seed(1)
date <- sample(seq(as.Date('2016/01/01'), as.Date('2016/12/31'), by="day"), 12)
vals <- data.frame(x = rep(1:3, 4), date = date, cost = rnorm(12, 100))
vals
#    x       date      cost
# 1  1 2016-04-07 100.48743
# 2  2 2016-05-15 100.73832
# 3  3 2016-07-27 100.57578
# 4  1 2016-11-25  99.69461
# 5  2 2016-03-14 101.51178
# 6  3 2016-11-20 100.38984
# 7  1 2016-12-06  99.37876
# 8  2 2016-08-25  97.78530
# 9  3 2016-08-13 101.12493
# 10 1 2016-01-23  99.95507
# 11 2 2016-12-27  99.98381
# 12 3 2016-03-03 100.94384

我想添加一个新列，其中^{第 i 行}的新值是所有成本值的总和，其中：

日期小于或等于第 i 个日期且大于^第 i^个日期减去 90 天
等于行 i 的 x 值。(在此示例中，x 和日期的组合是唯一的，但通常它们可能不是。

我可以通过两种不同的方式执行此操作：

tmp <- vals %>% group_by(date, x) %>% 
summarise(total = sum(vals$cost[vals$date <= date[1] & vals$date > (date[1] - 90) & vals$x == x[1]]))
vals %>% left_join(tmp)

和

vals %>% rowwise() %>% 
mutate(total = sum(vals$cost[vals$date <= date[1] & vals$date > (date[1] - 90) & vals$x == x]))

在我的较大数据上，两者都很慢，大概是因为所有的子集。我正在将数据框传递回计算中，这对我来说感觉有点黑客。

有没有办法在dplyr内"正确"做到这一点？我的意思是，不必传入数据框并进行慢速子集化。

或者如果没有，至少有更有效的方法可以做到这一点吗？

基本上，(按日期排序时(您总是计算index_start和index_end在行上滑动的位置sum(cost[index_start : index_end])。这可以使用成本的累积总和更有效地完成：sum(cost[index_start : index_end]) = cumsum(cost[index_end]) - cumsum(cost[index_start - 1]) 。对于数据框，代码的一种可能实现如下。

# arrange by date so all relevant cost come after each other
vals <- arrange(vals, x, date)
group_by(vals, x) %>% 
  mutate(
    cumsum_cost = cumsum(cost),
    index_start = map_dbl(
      date,
      function(cur_date, date) {
        min(which(cur_date - days(90) <= date))
      },
      date = date),
    cumsum_cost_90_days_ago = map_dbl(
      index_start,
      function(index_start, cumsum_cost) {
        if (index_start - 1 <= 0) {
          return(0)
        } else {
          cumsum_cost[index_start - 1]
        }
      },
      cumsum_cost = cumsum_cost),
    cost_90_days = cumsum_cost - cumsum_cost_90_days_ago
  )

如果一个人更聪明地获取index_start(例如，通过使用数据框按date排序的知识(，则可以进一步加快速度。索引的一种简单方法是滚动连接，例如在data.table中。

喜欢vals %>% arrange(x, date) %>% group_by(x) %>% mutate(new = cumsum(cost))吗？

解决每天多条记录的问题。我想你必须先做一个每天的计算吗？

vals %>% 
  arrange(x, date) %>%
  group_by(x, date) %>%
    mutate(cost = cumsum(cost)) %>%
  ungroup() %>%
  group_by(x) %>%
    mutate(new = cumsum(cost))

r语言 - 正确使用 dplyr 函数在滑动窗口中计算每个产品的销售额，而无需额外的传递或联接

相关内容

最新更新

热门标签：