0
Iam能够设置Apache Nutch并获取索引中的索引数据。索引编制时,我试图确保只有修改过的页面被索引。以下是我们有关于此的两个问题。Apache Nutch - 索引Solr中的修改文件
是否可以告诉Nutch的发送“如果 - 修改 - 因为”头,而 抓取网站并下载仅如果自 最后一次被抓取它改变了页面。
我看得出来,Nutch的正在形成的MD5摘要走出 检索到的网页内容,但即使消化并没有改变 (相对于以前的版本),它仍然是索引页面 Solr中。有没有在Nutch的任何设置,以确保如果 内容没有改变索引不索引?
看看[这里](http://stackoverflow.com/questions/14261586/recrawl-url-with-nutch-just-for-updated-sites)和[这里](http://stackoverflow.com /问题/ 14261586 /重新抓取的URL与 - Nutch的,只是换更新的网站) – ameertawfik 2014-09-24 12:33:45