0
我爬使用Nutch成功的一个网站,我试图恢复使用的Solr作为索引/搜索高亮显示的摘要。所以,如果我查询“海洋”,那么我想从网页(不是标题或URL)包含查询词的只是文本返回一个20-30字的摘要。返回网页摘要使用Solr
我复制了Nutch的schema.xml中为我的Solr schema.xml中。
所以我有两个问题: 1. Nutch schema.xml中的“content”字段是网页正文元素的字段吗? 2.如果没有存储该字段,有没有办法让Solr的检索在搜索时该字段,以便它可以突出?