我有一组单词('词典'),并且我必须从字典中找到最接近的单词,给定一个新单词。 (我使用'word'作为关键字,因为它实际上是一个抽象'字母'的可变长度序列)。Levenstein-distance-like metric中的最近邻居搜索
我使用Levenstein距离作为度量的概括 - 我需要概括的原因是我需要交换两个给定字母的特定“成本” - 例如,我需要与'a'交换' b'与'c'交换'a'的成本更低。我想我仍然必须说服自己,我的泛化仍然是一个指标。
目前我正在使用朴素的线性搜索,即迭代字典中的所有单词并跟踪最小距离,我正在寻找更高效的方法。
我开始阅读关于最近邻搜索的方法,但是对于我来说,主要的概念难点是我的'点'(单词)没有嵌入到我可以想象的空间中,并且它们不是具有维度的向量等。
考虑到这一点,我想听听一些关于寻找哪些算法的建议。
谢谢,我会试一试并报告。 – 2011-04-28 06:35:21