我需要为我的应用程序创建简单的搜索引擎。让我们简化为以下内容:我们有一些文本(很多),我需要搜索并显示相关结果。信息检索中的Porter stemmer算法
我基于这个伟大的article扩展了一些东西,它适用于我。
但我有词干术语的问题。举例言之“注释”,“注释”等将被梗为“ANNOT”,但是想象一下,你尝试搜索一些东西,你会看到意想不到的结果:
- “阿鲁” - 没有什么
- “annota “ - 无 等
只有单词”annot“会给出相关结果。那么,我应该如何改进搜索以提供预期的结果?因为“annot”包含“anno”,“annota”比“annot”略多。使用包含所有的时间显然不是解决方案
如果在第一种情况下,我可以使用一些Ternary search tree,在第二种情况下,我不知道该怎么办。
任何想法都会非常有帮助。
UPDATE
oleksii指出我的n-gram here,这可能对我的作品,但我不知道如何正确地指数正克。
所以问题:
- 哪些数据结构是最适合我的需要
- 如何正确索引我正克
这使得sence,谢谢。也许你可以指出如何执行n-gram的索引? – nrudnyk