2013-05-05 68 views
2

假设我有一个网站使用wget来抓取其他网站。我想为网站所有者提供不被我的网站抓取的机会。他们是否应该在他们的robots.txt文件中使用机器人名称wget,还是必须创建其他名称?robots.txt的机器人名称

+1

很肯定'wget的任何问题'尊重UA“wget”(除非用户强制它忽略机器人文件,当然)。显然它会在适当的时候尊重“*”。 – Kevin 2013-05-05 03:18:43

回答

1

通常的做法是禁止所有并允许只是最流行的UA是这样的:

User-agent: Google 
Disallow: 


User-agent: * 
Disallow:/

所以我认为你没有使用wget这样

0

看起来网站想阻止机器人会用通配符而不是有选择性地阻止它们 - 这里有太多的用户代理,太多的用户代理都没有列出。

所以只要wget有一个默认的用户代理(我认为它可以),我会坚持这一点。

相关问题