r语言 - data.table 高效回收 V2



这是这个问题的后续:data.table 高效回收

这里的区别在于每行的未来年数不一定相同..

我经常在data.table中使用回收,例如当我需要预测未来几年时。我重复我每年的原始数据。

这可能会导致类似这样的事情:

library(data.table)
dt <- data.table(1:500000, 500000:1, rpois(500000, 240))
dt2 <- dt[, c(.SD, .(year = 1:V3)), by = 1:nrow(dt) ]

但我经常要处理数百万行,而且比这个玩具的例子要多得多。时间增加..试试这个:

library(data.table)
dt <- data.table(1:5000000, 5000000:1, rpois(5000000, 240))
dt2 <- dt[, c(.SD, .(year = 1:V3)), by = 1:nrow(dt) ]

我的问题是:有没有更有效的方法来达到这个目的?

感谢您的任何帮助!

这是另一个答案的略微改进版本。

  • 使用非默认值进行unlist
  • rep.int而不是rep
  • seq_len而不是:
  • setDT而不是data.table()
  • 使用@Cole建议sequence功能会更好
  • 以及通过内部vecseq进一步的小改进

在一起似乎有所作为。

计时。。。

library(data.table)
f0 = function(dt) {
dt[, c(.SD, .(year = 1:V3)), by = 1:nrow(dt) ]
}
f1 = function(dt) {
dt2 <- data.table(
rep(dt$V1, dt$V3),
rep(dt$V2, dt$V3),
rep(dt$V3, dt$V3),
unlist(lapply(dt$V3, function(x){1:x}))
)
dt2
}
f2 = function(dt) {
dt2 = list(
V1 = rep.int(dt$V1, dt$V3),
V2 = rep.int(dt$V2, dt$V3),
V3 = rep.int(dt$V3, dt$V3),
year = unlist(lapply(dt$V3, seq_len), recursive=FALSE, use.names=FALSE)
)
setDT(dt2)
dt2
}
f3 = function(dt) {
## even better with sequence function suggested by @Cole
dt2 = list(
V1 = rep.int(dt$V1, dt$V3),
V2 = rep.int(dt$V2, dt$V3),
V3 = rep.int(dt$V3, dt$V3),
year = sequence(dt$V3)
)
setDT(dt2)
dt2
}
f4 = function(dt) {
dt[, c(lapply(.SD, rep.int, V3), year = .(sequence(V3)))]
}
f5 = function(dt) {
dt2 = list(
V1 = rep.int(dt$V1, dt$V3),
V2 = rep.int(dt$V2, dt$V3),
V3 = rep.int(dt$V3, dt$V3),
year = data.table:::vecseq(rep.int(1L,length(dt$V3)), dt$V3, NULL)
)
setDT(dt2)
dt2
}

关于"大"数据

dt <- data.table(1:5000000, 5000000:1, rpois(5000000, 240))
system.time(f0(dt))
#   user  system elapsed 
# 22.100  18.914  40.449 
system.time(f1(dt))
#   user  system elapsed 
# 35.866  15.607  51.475 
system.time(f2(dt))
#   user  system elapsed 
# 22.922   6.839  29.760 
system.time(f3(dt))
#   user  system elapsed 
#  6.509   6.723  13.233 
system.time(f4(dt))
#   user  system elapsed 
# 12.140  14.114  26.254 
system.time(f5(dt))
#   user  system elapsed 
#  6.448   4.057  10.506 

无论如何,您应该尝试改进在扩展数据集上运行的流程,因为也许您不必首先扩展它。

例如,在函数frollmean有一个参数adaptive,它可以计算可变长度窗口上的滚动平均值,而通常要计算该参数需要首先扩展数据。 数据中的V3会提醒很多自适应移动平均线窗口的长度。

这是一个更快的实现,但由于data.table中的lapply循环,仍然很长

dt2 <- data.table(
rep(dt$V1, dt$V3),
rep(dt$V2, dt$V3),
rep(dt$V3, dt$V3),
unlist(lapply(dt$V3, function(x){1:x}))
)

我希望这有什么帮助!

试试这个:

dt2 <- dt[dt[,rep(1:nrow(dt),V3)],]
dt2[,year:= dt[,sequence(V3)]] 

最新更新