有效地计算R中的相关性

这是一个优化问题，我希望你们这些有创意的SO用户能找到答案。

我有一个大矩阵（500万x 2），有两个值：时间和类型。从本质上讲，每个"类型"都是自己的时间序列——下面的数据代表三个不同的时间序列（一个代表A，一个代表B，还有一个代表C）。有2000种不同的"类型"。

mat
     time type
[1,]  50   A
[2,]  50   A
[3,]  12   B
[4,]  24   B
[5,]  80   B
[6,]  92   B
[7,]  43   C
[8,]  69   C

对我来说，找到这2000个时间序列之间的相关性最有效的方法是什么？我目前正在制作一个矩阵，其中每个事件可能发生的时间都有不同的仓，我用每个"类型"的事件在该时间段内发生的数量填充该矩阵。在填充该矩阵之后，我循环遍历每对"类型"并找到相关性。这效率极低（约5小时）。

如果有一种方法可以在R的cor函数中实现by='type'特性，我的整个问题就可以解决了？

感谢您的真知灼见。

您可以尝试类似的

set.seed(1)
df <- 
data.frame(time = rnorm(15), type = rep(c("a", "b", "c"), each = 5))
cor(do.call(cbind, split(df$time, df$type)))
         a        b        c
a  1.00000  0.27890 -0.61497
b  0.27890  1.00000 -0.78641
c -0.61497 -0.78641  1.00000

这种方法假设每种类型的观测数量是平衡的。

现在，我们可以用500万行和2000种不同类型的进行真正的测试

set.seed(1)
df <- data.frame(time = rnorm(5e6), type = sample(rep(1:2000, each = 2500)))
system.time(cor(do.call(cbind, split(df$time, df$type))))
##  user  system elapsed 
## 6.387   0.000   6.391

相关内容

最新更新

热门标签：