2016-02-05 45 views
1

我将Nutch 2.3设置为HBase作为后端,并运行包含Solr和Solr重复数据删除索引的爬网。你如何配置Apache Nutch 2.3以兑现机器人元标记?

我最近注意到Solr索引包含不需要的网页。

为了让Nutch的忽略这些网页我设置以下元标记:

<meta name="robots" content="noindex,follow"> 

我参观了Apache的Nutch官方网站并说明如下:

如果你不这样做有权在您的服务器上编辑/robots.txt文件,但您仍然可以让机器人不要为您的网页建立索引或关注链接。该标准的机制是机器人META标签

寻找答案的网站,我发现了一个建议设置Protocol.CHECK_ROBOTS或设置protocol.plugin.check.robots在Nutch的-site.xml中的属性。这些似乎没有工作。

在当前Nutch 2.3忽略noindex规则,因此将内容索引到外部数据存储即Solr。

问题是如何配置Nutch 2.3以兑现机器人元标记?

此外,如果Nutch 2.3之前被配置为忽略机器人元标记,并且在之前的爬网周期中索引该网页。为机器人元标记提供规则是正确的,这是否会导致未来爬网中的Solr索引中的页面被删除?

回答

1

我创建了一个插件来解决Apache Nutch 2.3不遵守机器人元标记规则noindex的问题。 metarobots插件迫使Nutch在索引期间丢弃符合条件的文档。这可以防止合格文件索引到您的外部数据存储库即Solr。

请注意:此插件可防止包含机器人元标记规则noindex的文档的索引,它不会删除以前索引到您的外部数据存储的任何文档。

Visit this link for instructions