你如何配置Apache Nutch 2.3以兑现机器人元标记？

我将Nutch 2.3设置为HBase作为后端，并运行包含Solr和Solr重复数据删除索引的爬网。你如何配置Apache Nutch 2.3以兑现机器人元标记？

我最近注意到Solr索引包含不需要的网页。

为了让Nutch的忽略这些网页我设置以下元标记：

<meta name="robots" content="noindex,follow">

我参观了Apache的Nutch官方网站并说明如下：

如果你不这样做有权在您的服务器上编辑/robots.txt文件，但您仍然可以让机器人不要为您的网页建立索引或关注链接。该标准的机制是机器人META标签

寻找答案的网站，我发现了一个建议设置Protocol.CHECK_ROBOTS或设置protocol.plugin.check.robots在Nutch的-site.xml中的属性。这些似乎没有工作。

在当前Nutch 2.3忽略noindex规则，因此将内容索引到外部数据存储即Solr。

问题是如何配置Nutch 2.3以兑现机器人元标记？

此外，如果Nutch 2.3之前被配置为忽略机器人元标记，并且在之前的爬网周期中索引该网页。为机器人元标记提供规则是正确的，这是否会导致未来爬网中的Solr索引中的页面被删除？

我创建了一个插件来解决Apache Nutch 2.3不遵守机器人元标记规则noindex的问题。 metarobots插件迫使Nutch在索引期间丢弃符合条件的文档。这可以防止合格文件索引到您的外部数据存储库即Solr。

请注意：此插件可防止包含机器人元标记规则noindex的文档的索引，它不会删除以前索引到您的外部数据存储的任何文档。

2016-02-10 12:08:38 saintybalboa

回答