我想使用magrittr、dplyr和可能的purrr的简洁性,用一个变量x
拆分一个大数据帧(具有许多不同类型的变量),然后用x
有条件地将不同的函数应用于每个组,并将组内的行应用于第二个变量y
。
取数据帧df <- data.frame(a, b, x, c, d, y)
,其中x
是因子(foo
,bar
),y
是数字。我可以用一个未删除的工作流来做我所描述的不雅的事情,因此:
df$y[df$x == "foo"] %<>% subtract(min(.))
df$y[df$x == "bar"] %<>% add(max(df$y[df$x == "foo"]))
我想使用dplyr重写它,并将其添加到df
的长管道中,但我所有组合mutate
、sapply
和do
的尝试都失败了;正如将purrr与匿名函数by_slice
和dmap
结合的尝试一样。
非常感谢你的建议。
这是dplyr
而不是magrittr
,但我认为它也更可读。我对%<>%
有点不舒服,因为它破坏了操作的线性结构,使代码更难阅读。所以我在这里只使用%>%
。
与您的描述匹配的示例数据帧:
df <- data.frame(a = 'a',
b = 'b',
x = c("foo", "bar") ,
c = 'c',
d = 'd',
y = 1:6)
df
a b x c d y
1 a b foo c d 1
2 a b bar c d 2
3 a b foo c d 3
4 a b bar c d 4
5 a b foo c d 5
6 a b bar c d 6
您的代码:
library(dplyr)
library(magrittr)
df$y[df$x == "foo"] %<>% subtract(min(.))
df
a b x c d y
1 a b foo c d 0
2 a b bar c d 2
3 a b foo c d 2
4 a b bar c d 4
5 a b foo c d 4
6 a b bar c d 6
df$y[df$x == "bar"] %<>% add(max(df$y[df$x == "foo"]))
df
a b x c d y
1 a b foo c d 0
2 a b bar c d 6
3 a b foo c d 2
4 a b bar c d 8
5 a b foo c d 4
6 a b bar c d 10
dplyr
解决方案:
df %>%
mutate(y = ifelse(x == "foo", y - min(y), y)) %>%
mutate(y = ifelse(x == "bar", y + max(y[x == 'foo']), y))
a b x c d y
1 a b foo c d 0
2 a b bar c d 6
3 a b foo c d 2
4 a b bar c d 8
5 a b foo c d 4
6 a b bar c d 10