有一些问题本质上需要几层嵌套来解决。在当前的项目中,我经常发现自己使用三个嵌套的apply
,以便对嵌套列表结构的最深层中包含的元素做一些事情。
R的列表处理和apply
-家族允许对这类问题编写相当简洁的代码,但是编写它仍然让我头疼,我很确定其他人阅读它将不得不花几分钟来理解我在做什么。尽管我基本上没有做什么复杂的事情——如果不是因为要遍历多层列表的话。
上下文:我正在编写一个表面肌电图数据的模拟,即可以在人体皮肤上测量的电位变化,并由肌肉活动引起。为此,我考虑了几块肌肉(第一层列表),每块肌肉都由许多所谓的运动单元(第二层列表)组成,每个运动单元都与放置在皮肤上的一组电极(第三层列表)相关。在下面的示例代码中,我们有对象.firing.contribs
,其中包含有关电机单元的作用对特定电极电位的影响程度的信息,以及.firing.instants
,其中包含有关这些电机单元被发射的瞬间的信息。然后,给定的函数计算每个电极电位的时间过程。
这里有一个问题:有什么可能的选项可以使这种类型的代码易于读者理解?特别是:我如何才能更清楚地说明我实际在做什么,即对每个(MU,电极)对执行一些计算,然后总结每个电极的所有潜在贡献?我觉得这一点目前在代码中不是很明显。
指出:
- 我知道plyr。到目前为止,我还没有能够看到如何使用它来渲染我的代码更具可读性,虽然。
- 我不能将嵌套列表的结构转换为多维数组,因为每个列表元素的元素数量不相同。
- 我搜索了MapReduce算法的R实现,因为这似乎适用于我作为例子给出的问题(虽然我不是MapReduce专家,所以如果我错了请纠正我…)。我只找到了大数据处理的包,这不是我感兴趣的。无论如何,我的问题不是关于这种特殊的(Map-Reducible)情况,而是关于固有嵌套问题的一般编程模式。 我现在对性能不感兴趣,只对可读性感兴趣。
下面是示例代码:
sum.MU.firing.contributions <- function(.firing.contribs, .firing.instants) {
calc.MU.contribs <- function(.MU.firing.contribs, .MU.firing.instants)
lapply(.MU.firing.contribs, calc.MU.electrode.contrib,
.MU.firing.instants)
calc.muscle.contribs <- function(.MU.firing.contribs, .MU.firing.instants) {
MU.contribs <- mapply(calc.MU.contribs, .MU.firing.contribs,
.MU.firing.instants, SIMPLIFY = FALSE)
muscle.contribs <- reduce.contribs(MU.contribs)
}
muscle.contribs <- mapply(calc.muscle.contribs, .firing.contribs,
.firing.instants, SIMPLIFY = FALSE)
surface.potentials <- reduce.contribs(muscle.contribs)
}
## Takes a list (one element per object) of lists (one element per electrode)
## that contain the time course of the contributions of that object to the
## surface potential at that electrode (as numerical vectors).
## Returns a list (one element per electrode) containing the time course of the
## contributions of this list of objects to the surface potential at all
## electrodes (as numerical vectors again).
reduce.contribs <- function(obj.list) {
contribs.by.electrode <- lapply(seq_along(obj.list[[1]]), function(i)
sapply(obj.list, `[[`, i))
contribs <- lapply(contribs.by.electrode, rowSums)
}
calc.MU.electrode.contrib <- function(.MU.firing.contrib, .MU.firing.instants) {
## This will in reality be more complicated since then .MU.firing.contrib
## will have a different (more complicated) structure.
.MU.firing.contrib * .MU.firing.instants
}
firing.contribs <- list(list(list(1,2),list(3,4)),
list(list(5,6),list(7,8),list(9,10)))
firing.instants <- list(list(c(0,0,1,0), c(0,1,0,0)),
list(c(0,0,0,0), c(1,0,1,0), c(0,1,1,0)))
surface.potentials <- sum.MU.firing.contributions(firing.contribs, firing.instants)
正如用户@alexis_laz建议的那样,实际上不使用嵌套的列表结构来表示数据,而是使用(平面的、2D的、非嵌套的)数据框架是一个很好的选择。对于上面的例子,这极大地简化了代码,增加了代码的简洁性和可读性,似乎也适用于其他情况。
它完全消除了嵌套apply
-foo和复杂的列表遍历的需要。此外,它还允许使用许多内置的R功能来处理数据帧。
我认为我以前没有考虑这个解决方案主要有两个原因:
- 感觉不像是数据的自然表示,因为数据实际上是嵌套的。通过将数据拟合到数据框架中,我们丢失了关于这个嵌套的直接信息。当然,它是可以重建的。
- 它引入了冗余,因为我将在分类列中有很多等效的条目。当然,这并不重要,因为它只是不消耗大量内存或其他东西的索引,但它仍然感觉有点糟糕。
下面是重写的示例。欢迎留言。
sum.MU.firing.contributions <- function(.firing.contribs, .firing.instants) {
firing.info <- merge(.firing.contribs, .firing.instants)
firing.info$contribs.time <- mapply(calc.MU.electrode.contrib,
firing.info$contrib,
firing.info$instants,
SIMPLIFY = FALSE)
surface.potentials <- by(I(firing.info$contribs.time),
factor(firing.info$electrode),
function(list) colSums(do.call(rbind, list)))
surface.potentials
}
calc.MU.electrode.contrib <- function(.MU.firing.contrib, .MU.firing.instants) {
## This will in reality be more complicated since then .MU.firing.contrib
## will have a different (more complicated) structure.
.MU.firing.contrib * .MU.firing.instants
}
firing.instants <- data.frame(muscle = c(1,1,2,2,2),
MU = c(1,2,1,2,3),
instants = I(list(c(F,F,T,F),c(F,T,F,F),
c(F,F,F,F),c(T,F,T,F),c(F,T,T,F))))
firing.contribs <- data.frame(muscle = c(1,1,1,1,2,2,2,2,2,2),
MU = c(1,1,2,2,1,1,2,2,3,3),
electrode = c(1,2,1,2,1,2,1,2,1,2),
contrib = c(1,2,3,4,5,6,7,8,9,10))
surface.potentials <- sum.MU.firing.contributions(firing.contribs,
firing.instants)