根据this评论在相关的线程,我想知道为什么基于Levenshtein距离的方法比Soundex好。基于Levenshtein距离的方法Vs Soundex
13
A
回答
13
Soundex是相当原始的 - 它最初被开发为手算。它产生了一个可以比较的关键。
Soundex与西方国家的名字一起使用,因为它最初是为美国人口普查数据开发的。它旨在用于拼音比较。
Levenshtein距离查看两个值并根据它们的相似性生成一个值。它正在寻找丢失或替换的字母。
基本上Soundex更适合发现“施密特”和“史密斯”可能是同一个姓氏。
Levenshtein距离是察觉到用户拼写错误“Levnshtein” ;-)
0
@Keith更好:正如我贴在其他问题
,Daitch-Mokotoff对我们欧洲人更好的(和我我认为美国)。
我也读了关于Levenshtein的Wiki。但我不明白为什么(在现实生活中)为用户比为Soundex更好的。
8
2
我同意你在Daitch-Mokotoff,Soundex是有偏见的,因为原来的美国人口普查员想要'美国'的名字。
也许上的差异的例子可以帮助:
探测法把增加值在单词的开始 - 事实上,它只会考虑第4周拼音的声音。所以虽然“施密特”和“史密斯”将匹配“史密斯”和“Wmith”不会。
Levenshtein的算法会更好地发现拼写错误 - 一个或两个缺失或替换的字母会产生高度相关性,而这些缺失字母的语音影响则不那么重要。
我不认为要么更好,我会考虑距离算法和拼音,以帮助用户更正输入法。
相关问题
- 1. 计算Levenshtein距离
- 2. Levenshtein距离组合
- 3. 同义词由Levenshtein距离
- 4. Levenshtein编辑距离Python
- 5. OCR:加权Levenshtein距离
- 6. JS - 基于距离
- 7. Python中的Levenshtein距离只给出1作为编辑距离
- 8. R中的快速Levenshtein距离?
- 9. 显示Levenshtein距离的结果
- 10. 正则表达式中的Levenshtein距离
- 11. 任意序列的Levenshtein /编辑距离
- 12. 句级R中的Levenshtein距离
- 13. Damerau-Levenshtein距离的高效实现
- 14. 非英语语言的Levenshtein距离
- 15. 性能问题,编辑大字符串的距离LCP vs Levenshtein vs SIFT
- 16. 我可以使用ActiveRecord查找基于最近匹配(levenshtein距离)的行
- 17. 使用levenshtein距离生成摘录
- 18. 在列表中计算levenshtein距离Python
- 19. 字符串相似性 - > Levenshtein距离
- 20. 如何在Delphi中实现Levenshtein距离?
- 21. 在python中实现Levenshtein距离
- 22. Levenshtein距离C#计数错误类型
- 23. 颜色基于距离
- 24. metaphone vs soundex vs NYSIIS
- 25. Levenshtein短语的距离/字符串匹配算法
- 26. 分别计算Levenshtein距离算法中删除的数量
- 27. 无法在Windows上安装Levenshtein距离包Python 3.5
- 28. Levenshtein算法 - 如果编辑距离大于给定阈值,则快速失败
- 29. 基于距离的SQL平均数据
- 30. 基于距离的地图阴影
我是第二个Metaphone/Double Metaphone暗示 – 2010-02-22 20:08:53
什么是双重metaphone? – Marin 2011-02-16 17:29:30