r语言 - 基于条件组合列表元素的快速方法



>我正在R中构建一个小函数,该函数从几个物种和几个站点进行大小测量,按站点组合所有数据(将许多物种混为一谈),然后计算这些组合数据的一些统计信息。

下面是一些简单的示例数据:

SiteID <- rep(c("D00002", "D00003", "D00004"), c(5, 2, 3))
SpeciesID <- c("CHIL", "CHIP", "GAM", "NZMS", "LUMB", "CHIL", "SIMA", "CHIP", "CHIL", "NZMS")
Counts <- data.frame(matrix(sample(0:99,200, replace = TRUE), nrow = 10, ncol = 20))
colnames(Counts) <- paste0('B', 1:20)
spec <- cbind(SiteID, SpeciesID, Counts)
stat1 <- data.frame(unique(SiteID))
colnames(stat1) <- 'SiteID'
stat1$Mean <- NA

这是一个函数,它创建一个列表,lsize1,其中每个列表元素是给定SiteID中给定SpeciesID的大小(B1B20)的向量,乘以每个大小类的计数数。由此,该函数创建一个列表,lsize2,它结合了具有相同SiteIDlsize1的列表元素。最后,它以lsize2为单位获取每个元素的平均值(即,每个SiteID个体的平均大小,无论SpeciesID如何),并因此输出。

fsize <- function(){
specB <- spec[, 3:22]
lsize1 <- apply(specB, 1, function(x) rep(1:20, x))
names(lsize1) <- spec$SiteID
lsize2 <- sapply(unique(names(lsize1)), function(x) unlist(lsize1[names(lsize1) == x], use.names = FALSE), simplify = FALSE)
stat1[stat1$SiteID %in% names(lsize2), 'Mean'] <- round(sapply(lsize2, mean), 2)
return(stat1)
}

在创建此函数时,我遵循了此处的建议:根据元素名称组合列表元素,这解决了我问题的症结:根据一些共同条件组合列表元素(在我的情况下,组合来自同一SiteID的所有元素)。该功能按预期工作,但我的问题是是否有办法使其更快?

注意:对于我的实际数据集,长度为 ~40,000 行,我发现该函数在 ~ 0.7 秒内运行,最耗时的步骤是创建lsize2(~ 0.5 秒)。我需要多次运行这个函数,使用不同的排列和数据子集,所以我希望有一种方法可以显着缩短这个处理时间。

这里不需要任何循环。这是一次尝试:

tmp <- data.frame(spec["SiteID"], sums = rowSums(specB * col(specB)), counts=rowSums(specB) )
tmp <- aggregate(. ~ SiteID, tmp, sum)
tmp$avg <- tmp$sums / tmp$counts
tmp
#  SiteID  sums counts      avg
#1 D00002 46254   4549 10.16795
#2 D00003 20327   1810 11.23039
#3 D00004 29651   2889 10.26341

比较:

fsize()
#  SiteID  Mean
#1 D00002 10.17
#2 D00003 11.23
#3 D00004 10.26

这段代码基本上是将每个值乘以其索引(col(specB)),然后将总和和计数aggregate乘以SiteID。这个逻辑也应该相对可转移到其他方法(data.table/dplyr)。例如:在data.table

setDT(spec)
spec[, .(avg = sum(.SD * col(.SD)) / sum(unlist(.SD))), by=SiteID, .SDcols=B1:B20]
#   SiteID      avg
#1: D00002 10.16795
#2: D00003 11.23039
#3: D00004 10.26341

相关内容

  • 没有找到相关文章

最新更新