我想建立一个内部搜索引擎(我有一个非常大的数千个XML文件集合),它能够将查询映射到概念。例如,如果我搜索“大型猫科动物”,我想要高度排名的结果以及“大型猫科动物”返回文档。但我也可能有兴趣让它回归“巨大的动物”,尽管它的相关性得分较低。如何构建概念搜索引擎?
我目前正在通过Python中的自然语言处理书阅读,似乎WordNet有一些可能证明有用的字词映射,尽管我不知道如何将它集成到搜索引擎中。我可以使用Lucene来做到这一点吗?怎么样?
从进一步的研究看来,“潜在语义分析”似乎与我正在寻找的内容相关,但我不确定如何实现它。
有关如何完成此任务的任何建议?
开始简单的好处。但在这种情况下,我正在构建的应用程序的潜在客户已经拥有“正常”的搜索引擎。我有理由相信,一个更加智能的引擎可以增加有形的价值,这就是为什么我想知道在我开始制作一个“我也是”产品之前是否可行的问题。 – DevX 2010-10-23 14:21:51
@DevX:请放慢速度。 “更智能的引擎”是一回事。首先建立。整合是你最担心的问题。在获得“更智能的引擎”后,保存最后一次。我会重复这一点,因为您似乎没有阅读它:在获得有关这些工具的一些经验并解决基本问题之后,最后可以留下整合。 – 2010-10-23 14:25:11
步骤2的+1。 – Skarab 2010-11-05 13:36:53