我有一个页面,其中包含许多我不希望Google抓取的链接。 有没有办法做到这一点?如何防止Google机器人抓取特定页面
2
A
回答
3
在您的HTTP根目录下创建一个robots.txt
文件。如果您有一个网站http://domain.com,请将robots.txt
放在您可以加载它的地方http://domain.com/robots.txt。
User-agent: *
Disallow: /somewhere_i_dont_want_google_to_crawl.php
Disallow: /dont_crawl_this_directory/
这里是堆栈溢出网站上真正的实用example。
1
结帐离开robots.txt file
但不这样做在whitehouse.gov
白痴管理员在他们想保守秘密
哦,最后一件事,这个文件做的一切和列表 - 不信任它 - 它是“应该停止爬虫”,但我不会成为法律案件
2
您可以在您的HTTP根目录中使用robots.txt
,并且您还可以使用元标记(如果您的网页为HTML)来停止它太:
<meta name="googlebot" content="noindex" />
更多示例请参阅this website。
相关问题
- 1. 如何防止机器人
- 2. Google网页抓取机器人会遇到什么HTTP签名?
- 3. 如何防止下面的GET表单的机器人?
- 4. 如何获取由Google抓取的私人网页
- 5. 防止所有子域名被搜索引擎机器人抓取
- 6. 如何防止Googlebot抓取Ajaxified链接?
- 7. 如何防止代码在特定页面上运行?
- 8. 如何防止在特定页面上自动注销用户?
- 9. 如何防止JScrollBar滚动页面向下的特定事件?
- 10. 为特定页面重写规则以防止特定文化
- 11. 防止被脚本抓取
- 12. 防止RSS提要抓取?
- 13. 抓取Google翻译的页面? (PHP)
- 14. 防止页面
- 15. 如何防止iframe页面重定向父页面?
- 16. 如何阻止Google抓取出现网页
- 17. Google如何抓取动态网页?
- 18. 如何防止页面刷新后秒表定时器重置
- 19. X机器人标记noindex特定页面
- 20. GOOGLE:如何防止子页面出现在结果中
- 21. 搜索引擎机器人可以抓取需要登录的页面吗?
- 22. 如何防止某人直接访问页面链接?
- 23. 如何在Google App Engine上执行网页抓取以在Java中查找特定的链接页面?
- 24. 抓取页面块
- 25. 如何使用维基机器人定期创建页面
- 26. 如何防止从特定网页重定向python脚本?
- 27. 如何防止开发人员推动特定分支?
- 28. 如何防止机器人对讲说话搜索条进度
- 29. 如何防止机器人自动提交表单?
- 30. 如何防止机器人mouseMove走出屏幕
谢谢。 “HTTP根”在哪里?我如何检查它是否实际生效? – neversaint
我做了一个编辑并予以澄清。 Google有一篇关于robots.txt的文章:http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156449&from=35237&rd=1 – Deltik