记录链接 - R 一个向量.不要与自己匹配



如果我有一个名称向量,请说:

a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell")

我想使用levenshteinSim或类似来获得此向量中的相似性分数。但是,我不希望它自我评分。例如,"tom" #1"tom" #3得分。而不是为"tom" #1"tom" #1返回分数,以免自我得分。

我以前用两个不同的向量ab做过。但是,如果我将其用于相同的向量,那么"tom" #1将针对"tom" #1得分,这就是我想避免的。

有没有办法做到这一点?

您可以使用combn生成a的所有无序元素对:

a <- c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell")
df <- data.frame(t(combn(a, 2)), stringsAsFactors = FALSE)
df$sim <- RecordLinkage::levenshteinSim(df$X1, df$X2)
head(df)
#    X1     X2 sim
# 1 tom  tommy 0.6
# 2 tom   alex 0.0
# 3 tom    tom 1.0
# 4 tom alexis 0.0
# 5 tom   Alex 0.0
# 6 tom  jenny 0.0

最新更新