我有两个电子表格,每个电子表格都提供有关在我的工作网络上运行的一组应用程序的信息。他们是由两个独立的人创造的,他们从来没有见过这样的人。Levenshtein短语的距离/字符串匹配算法
因此,它们给予应用程序的名称在表单之间并不固定。但是,它们是相似的。例如,可以调用应用程序“Office 2010”,其他“MS Office 10”或其他。
我查了Levenshtein算法,但是这似乎只适用于单词顺序不变的单个单词或短语,而只有拼写不同。 (我不是计算机科学家,请随时纠正我)。
因此,我正在寻找一种算法,对于一张表中的每个名称,可以循环显示另一张表中的每个名称并查找最接近的匹配项。不一定要完美,任何事情都会有所帮助。
任何想法?感谢所有能够帮助的人。