我有一个非常大的数据帧,我需要检查某一列的值是否与列表中的项一致。这可以是列表中的任何项目,也可以是用逗号分隔的项目组合。
在下面的例子中,我只希望最后一个值("no-color")抛出一个失败,因为它没有出现在名为Type的列表中。
Type <- list(c('blue','green','black','red'))
Data <-data.frame(colour=c("blue","blue,green", 'blue,black,red', 'black,red', 'no colour'))
感谢
我们可以paste
list
和filter
中的元素
library(stringr)
library(dplyr)
Data %>%
filter(str_detect(colour, str_c(Type[[1]], collapse = "|")))
-输出
colour
1 blue
2 blue,green
3 blue,black,red
4 black,red
使用strsplit
。
sapply(strsplit(Data$colour, ','), (x) all(x %in% Type[[1]]))
# [1] TRUE TRUE TRUE TRUE FALSE
这里有另一个可能的选项,我们可以从列表中删除任何颜色,然后清理剩余的字符(删除空格和逗号)。然后,我使用nzchar
来检测是否还有剩余的单词,如果有,则删除该行。
Data[!nzchar(trimws(gsub(
"[[:punct:]]", "", gsub(paste0(Type[[1]], collapse = "|"), "", Data$colour)
))), ]
输出
colour
1 blue
2 blue,green
3 blue,black,red
4 black,red