2017-04-07 136 views
1

对于一个网站,我想要在/telecommandes路径上进行网络爬行。它的robots.txt:robots.txt中的加号意味着什么?

User-agent: * 
Disallow: *telecommande++* 

我的问题是:

  • 什么是加号在这种情况下,是什么意思?
  • 是否适合抓取URL /telecommandes-box-decodeur.html?关于robots.txt文件?

回答

1

original robots.txt specification+Disallow值没有特殊含义,并且都没有*

因此,允许抓取/telecommandes-box-decodeur.html

不允许使用,例如,抓取/*telecommande++*.html(字面上)。


如果要有礼貌,你可以采取“专有”的robots.txt扩展到帐户,例如,谷歌和其他搜索引擎。许多作者可能没有意识到这些不是官方规范的一部分,并且期望它们甚至可以用于其他爬虫。

Google’s robots.txt documentation,则+没有特殊的意义,但*有一个(这意味着:任何字符序列)。

因此,仍然允许抓取/telecommandes-box-decodeur.html

不允许的是,例如,抓取/foo/telecommande++bar.html(并且仍然是/*telecommande++*.html)。