2009-07-17 130 views
0

好吧,即时建立一个搜索引擎。并且搜索模块能够提取相关单词。现在我有一个单词列表和它们在原始文本中的偏移量。使用levenshtein距离来计算查询字符串和源文本部分之间的差异是一个坏主意(从给定单词的偏移量开始,直到查询字符串的长度)。问我以为这会帮助我更快地生成摘录。使用levenshtein距离生成摘录

它不需要接近搜索等,只有普通的“ANY”和“ALL”模式。顺便说一句,结果已经排序,所以即时只能看看现在的摘录一代。谢谢。

回答

1

构建从文本到包含词(及其数量)的一对多映射。这个“字袋”矢量可以用于很多不同的技术。

+0

这是我的计划,但后来我也许这种技术可以更快地做更少的迭代,这就是为什么我问这里。 – kar 2009-07-17 12:03:56