我有一个包含数百万个句子的文本列的数据集。我想过滤掉所有包含或这些单词
的句子immigr*
migra*
asyl*
refug*
是否有一个我不知道的简洁的小函数?到目前为止,我已经尝试了
grep('immigr+', df$text)
但每次只能取一个字…
您可以使用or (|
)折叠值:
wd <- c("immigr*","migra*", "asyl*", "refug*")
grep(paste(wd, collapse = "|"), c("immigra", "other"))
1