R:根据同一列中的条件识别列中的duplicate



我需要在特定列中识别数据框中的重复项。但是,我不想消除所有重复的值,而只是那些显示"http"作为该列中字符串的初始部分的值。

通常我会用下面的代码行来标识重复的内容:

Dup <-data[(duplicated(data[c("var1")])),]

我们需要grep的另一个条件来确保只有那些以"http"开头并且是重复的字符串将从数据集中删除。

data[!(grepl("^http", data$var1) & duplicated(data$var1)),] 

最新更新