2014-10-01 272 views
0

我们希望为在线/离线产品构建搜索引擎。我们开始浏览网页,并了解倒排索引,TF/IDF和其他通用搜索相关算法等技术。我们使用了内置所有上述技术的lucene,并且我们的基本搜索平台已准备就绪。建筑搜索引擎产品搜索

后来我们意识到通用搜索引擎会返回任何类型的输出。 说如果我搜索“黑色鞋子”,搜索字符串输出将包含既有黑色又有鞋子的输出。所以在输出中,很可能会有一件黑色衬衫,但关联度较低。

所以我们认为产品分类可能是我们的救援。我们将根据它携带的属性对我们的产品进行分类,然后我们也将解析查询字符串来挖掘用户正在查找的内容并直接匹配它们。我不确定是否应该遵循这种方式。

所以我想知道通常在建立利基市场的搜索引擎之后有哪些不同的技术?

回答

1

Lucene绝对是您可以用来构建搜索引擎的顶级API之一。我会建议你使用Solr.

Solr使用Lucene的引擎盖下,但提供了很多内置的功能和一个惊人的视觉控制台。

关于你的问题,经常发生,这里不是使用工具的问题,而是你如何使用它。您可以使用Lucene/Solr自定义搜索行为以获得期望的结果。

反正你有两个选择要么单独或共同采取:

1)创建一组背景可供选择。例如,亚马逊搜索允许您在与产品相关的不同环境中进行选择(例如“所有部门”,“美容”,“游戏”等)。这个技巧将帮助你缩小产品的范围;

2)使用SpanNearQuery或PhraseQuery与slop 1并通过接近提升它们。

很明显,如果索引中的文档是用最适合您的结构创建的,以前的选项会对您有所帮助。

+0

非常感谢您的建议。我会毫不犹豫地阅读有关SpanNearQuery并尝试在我们的应用程序中实现它。 – 2014-10-19 09:54:52