r语言 - 使用 dplyr 筛选从一个变量到另一个变量的所有行



我的数据如下所示:

data <- data.frame(
value = runif(10)
id = c("junk","start","1","2","end","morejunk","junk","start","4","end")
)

我想使用filter()提取从id"start"id"end"的所有内容。问题是起始行和结束行之间的观察值数量不同,所以我无法过滤每 x 行。有没有办法以我可以指定from = "start"until = "end"的方式使用filter()

您可以首先确定"开始"和"结束"的位置。然后使用这些成对索引来索引 data.frame。这假设每次都有一对对应的开始和结束。

set.seed(0L)
data <- data.frame(
value = runif(10),
id = c("junk","start","1","2","end","morejunk","junk","start","4","end")
)
idx <- which(data$id %in% c("start", "end"))
lapply(split(idx, ceiling(seq_along(idx)/2)), function(x) data[x[1]:x[2],])

你可以

  • 使用which标识具有"start""end"的行索引,
  • 分别从每个行中加减 1,以免包含这些行,
  • 通过Map将这些序列并行传递给:
  • unlist将列表简化为向量,以及
  • 具有slice的子集

哪个离开

library(dplyr)
set.seed(47)
data <- data.frame(
value = runif(10),
id = c("junk","start","1","2","end","morejunk","junk","start","4","end")
)
data %>% slice(unlist(Map(`:`, 
which(.$id == 'start') + 1, 
which(.$id == 'end') - 1)))
#> # A tibble: 3 × 2
#>       value     id
#>       <dbl> <fctr>
#> 1 0.7615020      1
#> 2 0.8224916      2
#> 3 0.5433097      4

或在基地,

data[unlist(Map(`:`, 
which(data$id == 'start') + 1, 
which(data$id == 'end') - 1)), ]
#>       value id
#> 3 0.7615020  1
#> 4 0.8224916  2
#> 9 0.5433097  4

最新更新