2014-09-24 53 views
0

Iam能够设置Apache Nutch并获取索引中的索引数据。索引编制时,我试图确保只有修改过的页面被索引。以下是我们有关于此的两个问题。Apache Nutch - 索引Solr中的修改文件

  • 是否可以告诉Nutch的发送“如果 - 修改 - 因为”头,而 抓取网站并下载仅如果自 最后一次被抓取它改变了页面。

  • 我看得出来,Nutch的正在形成的MD5摘要走出 检索到的网页内容,但即使消化并没有改变 (相对于以前的版本),它仍然是索引页面 Solr中。有没有在Nutch的任何设置,以确保如果 内容没有改变索引不索引?

+0

看看[这里](http://stackoverflow.com/questions/14261586/recrawl-url-with-nutch-just-for-updated-sites)和[这里](http://stackoverflow.com /问题/ 14261586 /重新抓取的URL与 - Nutch的,只是换更新的网站) – ameertawfik 2014-09-24 12:33:45

回答

0

回答我的问题在这里,希望它可以帮助别人 一旦我设定的adaptivefetchschedule,可以看到Nutch的是不拉的是处理不当changed.Its履行,如果 - 修改 - 自标头的页面。