2012-04-04 72 views
0

我爬使用Nutch成功的一个网站,我试图恢复使用的Solr作为索引/搜索高亮显示的摘要。所以,如果我查询“海洋”,那么我想从网页(不是标题或URL)包含查询词的只是文本返回一个20-30字的摘要。返回网页摘要使用Solr

我复制了Nutch的schema.xml中为我的Solr schema.xml中。

所以我有两个问题: 1. Nutch schema.xml中的“content”字段是网页正文元素的字段吗? 2.如果没有存储该字段,有没有办法让Solr的检索在搜索时该字段,以便它可以突出?

回答

1
  1. 我很久没用过Nutch了,但我认为假设“内容”是你想突出显示的字段是非常安全的。

  2. 您需要存储该字段才能使用突出显示,并且如果要使用FastVectorHighlighting,则需要为该字段启用以下属性:termVectors,termPositions和termOffsets。

如果您使用FVH,也可以在Solr 3.5及更高版本中使用boundaryScanner。