假设我有一个网站使用wget
来抓取其他网站。我想为网站所有者提供不被我的网站抓取的机会。他们是否应该在他们的robots.txt
文件中使用机器人名称wget
,还是必须创建其他名称?robots.txt的机器人名称
2
A
回答
1
通常的做法是禁止所有并允许只是最流行的UA是这样的:
User-agent: Google
Disallow:
User-agent: *
Disallow:/
所以我认为你没有使用wget
这样
0
看起来网站想阻止机器人会用通配符而不是有选择性地阻止它们 - 这里有太多的用户代理,太多的用户代理都没有列出。
所以只要wget有一个默认的用户代理(我认为它可以),我会坚持这一点。
相关问题
- 1. 机器人meta和robots.txt
- 2. 的robots.txt和Meta标签机器人
- 3. DotNetNuke的robots.txt的不被谷歌机器人荣幸
- 4. 的robots.txt和元机器人之间的互动标签
- 5. Capistrano - 机器名称
- 6. 如何禁止不遵守robots.txt的机器人?
- 7. 机器人Meta标记和robots.txt的两个有什么不同?
- 8. 命名我的机器人
- 9. 从robots.txt中禁止Google机器人并列出站点地图
- 10. Lita中的条件路由和机器人名称
- 11. 设置机器人测试用例的标记名称
- 12. 如何阻止不寻常的机器人,如“bot [\ s_:,\。\; \/\\ - - ]”名称?
- 13. 随机名称选取器
- 14. Htaccess/robots.txt允许搜索机器人探索主域名,但不在其他域名的目录
- 15. 机器人可能在Slack中有动态名称吗?
- 16. 从机器名称中删除域名
- 17. 如何使用机器人的名字
- 18. iPhone/iPad模拟器的主机名称
- 19. 如何获得SPServer的机器名称?
- 20. 用机器名称和.domain名称创建URI
- 21. 这个robots.txt是什么意思?它不允许任何机器人吗?
- 22. 即使没有robots.txt文件,机器人仍然不允许使用
- 23. 不要使用机器人是指用户代理robots.txt中OR或AND方式
- 24. 机器人 - 文本输入型的人的名字不工作
- 25. 机器人名单音播放
- 26. 如何由机器人命名空间
- 27. 没有资源发现,给定名称匹配的 '机器人:Widget.Material.ActionButton.CloseMode'
- 28. 机器人 - 无法找到谷歌播放服务包的名称
- 29. 将机器人框架中的库导入为另一个名称?
- 30. 机器人框架:没有找到名称为'Wait Until Element Contains'的关键字
很肯定'wget的任何问题'尊重UA“wget”(除非用户强制它忽略机器人文件,当然)。显然它会在适当的时候尊重“*”。 – Kevin 2013-05-05 03:18:43