1
对于一个网站,我想要在/telecommandes
路径上进行网络爬行。它的robots.txt:robots.txt中的加号意味着什么?
User-agent: *
Disallow: *telecommande++*
我的问题是:
- 什么是加号在这种情况下,是什么意思?
- 是否适合抓取URL
/telecommandes-box-decodeur.html
?关于robots.txt文件?
对于一个网站,我想要在/telecommandes
路径上进行网络爬行。它的robots.txt:robots.txt中的加号意味着什么?
User-agent: *
Disallow: *telecommande++*
我的问题是:
/telecommandes-box-decodeur.html
?关于robots.txt文件?每original robots.txt specification,+
在Disallow
值没有特殊含义,并且都没有*
。
因此,允许抓取/telecommandes-box-decodeur.html
。
不允许使用,例如,抓取/*telecommande++*.html
(字面上)。
如果要有礼貌,你可以采取“专有”的robots.txt扩展到帐户,例如,谷歌和其他搜索引擎。许多作者可能没有意识到这些不是官方规范的一部分,并且期望它们甚至可以用于其他爬虫。
每Google’s robots.txt documentation,则+
没有特殊的意义,但*
有一个(这意味着:任何字符序列)。
因此,仍然允许抓取/telecommandes-box-decodeur.html
。
不允许的是,例如,抓取/foo/telecommande++bar.html
(并且仍然是/*telecommande++*.html
)。