r语言 - 有条件地降低'while loop' - r - Reducing 'while loop' with conditions 小贝子编程网

在

宏伟的计划中，我的目标是只打印具有相似/相同字段名称的行，而不重复。也就是说，如果三行重复，则每行仅打印一次（而不是每个成对比较）。

要重现的最小数据集和库：

library(stringdist)
trye <-  data.frame(names = c('aa','aa','aa','bb','bb','cc'),
                    values = 1:6,
                    id = c('row 1', 'row 2', 'row 3', 'row 4', 'row 5', 'row 6'), 
                    stringsAsFactors = FALSE)

我的预期输出是具有相同/相似名称（1,2,3,4和5）的行：

trye 
#   names values    id
# 1    aa      1 row 1
# 2    aa      2 row 2
# 3    aa      3 row 3
# 4    bb      4 row 4
# 5    bb      5 row 5

这里有两个尝试没有奏效（其他一些修改引发了错误）：

#this one prints row 1,2,3,3,5,5
i <- 1
while (i < length(trye$names)) {
  dupe <- amatch(trye$names[[i]],trye$names[-i], maxDist = 1)
  if(dupe  + 1 > 0) {
    print(trye[i,])
    duperow <- dupe + 1
    print(trye[duperow,])
    trye <- trye[-c(i), ]
    i <- i + 1

  } else {
    i <- i + 1
    trye <- trye[-c(i), ]
  }
}

# this one prints rows 1,2,4,5 which is almost correct,
# it's missing row 3 (as it shares the name with row 1 and 2.
i <- 1
while (i < length(trye$names)) {
  dupe <- amatch(trye$names[[i]],trye$names[-i], maxDist = 1)
  if(dupe  + 1 > 0) {
    print(trye[i,])
    duperow <- dupe + 1
    print(trye[duperow,])
    trye <- trye[-c(i,duperow), ]
    i <- i + 1

  } else {
    i <- i + 1
    trye <- trye[-c(i,duperow), ]
  }
}

请注意，实际

数据集很大，因此删除行以使比较更小对我来说似乎（或看起来）是个好主意，而且，实际集中的最大距离大于 1。

您可以使用基地的adist来获取Levenshtein距离，并按至少具有一个匹配项（除了他们自己）的匹配项进行过滤：

sapply(1:nrow(trye), function(x) sum(adist(trye[x,1], trye[,1])==0)>1)

如果数据非常大，因为adist很昂贵，则可以删除所有重复项，但每个重复项中的第一个和最后一个除外：

trye[(!duplicated(trye$names) | rev(!duplicated(rev(trye$names)))),]

然后重新添加它们。您可能还想检查openrefine，这是一种可以加快速度的方法。

r语言 - 有条件地降低'while loop'

相关内容

最新更新

热门标签：