这是一个优化问题,我希望你们这些有创意的SO用户能找到答案。
我有一个大矩阵(500万x 2),有两个值:时间和类型。从本质上讲,每个"类型"都是自己的时间序列——下面的数据代表三个不同的时间序列(一个代表A,一个代表B,还有一个代表C)。有2000种不同的"类型"。
mat
time type
[1,] 50 A
[2,] 50 A
[3,] 12 B
[4,] 24 B
[5,] 80 B
[6,] 92 B
[7,] 43 C
[8,] 69 C
对我来说,找到这2000个时间序列之间的相关性最有效的方法是什么?我目前正在制作一个矩阵,其中每个事件可能发生的时间都有不同的仓,我用每个"类型"的事件在该时间段内发生的数量填充该矩阵。在填充该矩阵之后,我循环遍历每对"类型"并找到相关性。这效率极低(约5小时)。
如果有一种方法可以在R的cor
函数中实现by='type'
特性,我的整个问题就可以解决了?
感谢您的真知灼见。
您可以尝试类似的
set.seed(1)
df <-
data.frame(time = rnorm(15), type = rep(c("a", "b", "c"), each = 5))
cor(do.call(cbind, split(df$time, df$type)))
a b c
a 1.00000 0.27890 -0.61497
b 0.27890 1.00000 -0.78641
c -0.61497 -0.78641 1.00000
这种方法假设每种类型的观测数量是平衡的。
现在,我们可以用500万行和2000种不同类型的进行真正的测试
set.seed(1)
df <- data.frame(time = rnorm(5e6), type = sample(rep(1:2000, each = 2500)))
system.time(cor(do.call(cbind, split(df$time, df$type))))
## user system elapsed
## 6.387 0.000 6.391