2010-05-17 37 views
0

有人知道任何与人们拼错单词时犯错误类型频率有关的数据吗?我不是指单词,而是指打字员犯的错误。例如,我个人发现转座错误最多,其次是删除错误(即,不包括我应该写的字母),替换错误和最后的插入错误。然而,我发现输入一个错误的字母(一个替换错误,例如,xat而不是cat)比不包括字母更频繁,这并不令人感到惊讶。校正拼写错误所需的编辑操作频率数据

我的目的是,当我只有原始用户的输入时,能够对纠正一个词做出最好的猜测。这个想法是,如果一种类型的错误比其他类型的错误更频繁,那么通过这种类型的操作纠正一个单词更可能是正确的。我不反对使用通常为拼写错误的单词的数据库,但我更喜欢算法解决方案以取决于语料库 - 尤其是如果它可能更快。

回答

0

您可以尝试使用类似计算错字和单词词典之间的Levenshtein distance之类的内容。我不确定那是你想要的。