2017-03-22 60 views
0

所以我使用nutch V2来索引我的网站。 但是,不会从SOLR索引中删除不再存在的页面(我对CMS进行索引,因此可以删除页面)。nutch V2(含solr)删除文件

我试图设置:db.update.purge.404=true在我的nutch-default.xml,但这似乎并没有做任何事情。

对于Nutch的V1我可以看到,命令行参数“-deleteGone”存在,但是从文档我只能猜测,它的V2的去除。

所以我的问题是:我如何配置nutch V2来删除不存在的网址?

回答

2

你必须设置db.update.purge.404=truenutch-site.xml,而不是在nutch-default.xml