我有一些分组的数字数据(value
)分组(按Tissue
)。我想为每个组中多次出现的值添加一个小抖动。
输入:
df <- structure(list(value = c(1.05155243861439,
1.05155243861439, 1.05155243861439, 11.9769249796958, 1.05155243861439,
1.05155243861439, 1.05155243861439, 1.05155243861439, 1.05155243861439
), Tissue = structure(c(5L, 5L, 5L, 4L, 5L, 3L, 5L, 1L, 1L
), .Label = c("Brain", "Marrow", "Spleen", "Testes", "Vis"), class = "factor")), .Names = c("value",
"Tissue"), row.names = c("SM-2", "SM-3", "SM-4", "SM-5",
"SM-6", "SM-7", "SM-8", "SM-9", "SM-10"), class = "data.frame")
我尝试使用 group_by
和 mutate
,但这会为每个组的每个重复元素添加相同的抖动(有点毫无意义,对吧?
df <- df %>%
group_by(Tissue, value) %>%
mutate(jitter = ifelse(n()>1, value+runif(1, min=-0.15, max=0.15), value))
输出:
Source: local data frame [9 x 3]
Groups: Tissue, value [4]
value Tissue jitter
(dbl) (fctr) (dbl)
1 1.051552 Vis 1.1793382
2 1.051552 Vis 1.1793382
3 1.051552 Vis 1.1793382
4 11.976925 Testes 11.9769250
5 1.051552 Vis 1.1793382
6 1.051552 Spleen 1.0515524
7 1.051552 Vis 1.1793382
8 1.051552 Brain 0.9284923
9 1.051552 Brain 0.9284923
第 4 行和第 6 行正确取消抖动。但是行[1-3,5,7]
我希望有独特的紧张情绪。更擅长dplyr
的人有什么想法吗?:(
正如注释中指出的那样,在这种情况下ifelse()
是有问题的,因为它返回的内容的长度必须与测试的长度相同。由于测试的长度为 1,因此ifelse
不会返回长度n()
的随机数。
我们可以通过将抖动值乘以逻辑来解决此问题 是否n() > 1
.如果为假,它将乘以 0;如果为 true,则为 1。
df %>%
group_by(Tissue, value) %>%
mutate(
jitter = value + runif(n(), min = -0.15, max = 0.15) * (n() > 1)
)
# value Tissue jitter
# (dbl) (fctr) (dbl)
# 1 1.051552 Vis 1.1020925
# 2 1.051552 Vis 1.1398244
# 3 1.051552 Vis 0.9339355
# 4 11.976925 Testes 11.9769250
# 5 1.051552 Vis 1.1186657
# 6 1.051552 Spleen 1.0515524
# 7 1.051552 Vis 1.0249348
# 8 1.051552 Brain 1.0814222
# 9 1.051552 Brain 1.0496148
在单个条件下,您实际上可以使用普通if(){} else
,这也可以在mutate
中工作:
jitter = value + if(n() > 1) {runif(n(), -.15, .15)} else 0
你喜欢哪个取决于你。