我正在使用Levenshtein距离,它是一个字符串度量,用于测量两个序列之间的差异量以找出两个字符串之间的差异百分比。我想使用更好的方法来声明字符串与字符串中的单词相似。比较2个字符串以查找它们是否包含与java相同的单词
例如:可以说我有一个2段的字符串,第二个字符串只包含第一个字符串的第二段。
我知道我可以比较每个字符串的第一个单词,然后是第二个等,但如果像我提出的最后一个例子发生的情况下,这将不会有效。
我在想也许比较第一个字符串中的第一个单词和第二个字符串中的所有单词,但恐怕这会让这个过程变得很慢。
Levenshtein为什么不够?你的目标是什么?你如何定义相似性? – Baz 2012-07-23 16:30:44