我将Nutch 2.3设置为HBase作为后端,并运行包含Solr和Solr重复数据删除索引的爬网。你如何配置Apache Nutch 2.3以兑现机器人元标记?
我最近注意到Solr索引包含不需要的网页。
为了让Nutch的忽略这些网页我设置以下元标记:
<meta name="robots" content="noindex,follow">
我参观了Apache的Nutch官方网站并说明如下:
如果你不这样做有权在您的服务器上编辑/robots.txt文件,但您仍然可以让机器人不要为您的网页建立索引或关注链接。该标准的机制是机器人META标签
寻找答案的网站,我发现了一个建议设置Protocol.CHECK_ROBOTS
或设置protocol.plugin.check.robots
在Nutch的-site.xml中的属性。这些似乎没有工作。
在当前Nutch 2.3忽略noindex
规则,因此将内容索引到外部数据存储即Solr。
问题是如何配置Nutch 2.3以兑现机器人元标记?
此外,如果Nutch 2.3之前被配置为忽略机器人元标记,并且在之前的爬网周期中索引该网页。为机器人元标记提供规则是正确的,这是否会导致未来爬网中的Solr索引中的页面被删除?