有两个类似的说明,它们有80%的相似性。我需要两个相同的ID。如何让两个字符串具有相同的ID,如果它们具有80%的相似性?
还有其他的id描述有60%的相似性。这些应该保留自己的ID。一旦id desc被考虑和修改,不应该被视为参考。此外 例如:
id id description
1 pepsodent
2 pepsodent salt
3 pepsod
4 pepsodent and salt
5 peps
现在,pepsodent与pepsodent匹配salt.therefor都应当给予id作为1 现在,作为pepsodent盐已被修改,则不能被用作基准的规模进一步。
如果你能定义什么80%的相似性和/或60%的相似性实际上意味着,我们可以提供帮助。您需要准确定义哪些规则可以确定哪些描述应该与另一个描述匹配 – kbball
您可以显示您为此尝试的现有SQL或VBA代码吗?这可能有助于引导人们给出更适合你的答案。 – halfer
你可以尝试实现这个算法,看看它是否满足你确定“相似性”的需求http://stackoverflow.com/questions/4243036/levenshtein-distance-in-excel –