如果我有名字的一个载体,说:RecordLinkage - R一个向量。不符合自我
a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell")
我想使用levenshteinSim
或类似的得到这个矢量中的相似性得分。但是,我不想让它自我评分。例如,"tom" #1
得分为"tom" #3
。并且不要为"tom" #1
反对"tom" #1
得分,所以不要自我评分。
我以前用两种不同的载体a
和b
完成了它。然而,如果我使用这个相同的载体,然后"tom" #1
将得分反对"tom" #1
这是我想要避免。
有没有办法做到这一点?
你希望你的输出什么格式? – Scarabee