2017-07-25 85 views

回答

1

按照original robots.txt specification

  1. 僵尸必须遵循符合其用户代理名称的第一个记录。

  2. 如果这样的记录不存在,它必须遵循记录User-agent: *(该行可能不会出现在多条记录中)。

  3. 如果这样的记录不存在,则不必遵循任何记录。

所以一个机器人永远不会超过一条记录。


对于你的榜样,这意味着:

  • 的名称相匹配的机器人“Googlebot”时不允许有与/privatedir/开始的路径检索的网址。
  • 与名称“Googlebot”不匹配的bot不允许抓取任何网址。
+0

优秀的答案!比原始的robots.txt规范更清晰。谢谢! – peter