如何防止Google机器人抓取特定页面

我有一个页面，其中包含许多我不希望Google抓取的链接。有没有办法做到这一点？如何防止Google机器人抓取特定页面

2011-11-18 neversaint

在您的HTTP根目录下创建一个robots.txt文件。如果您有一个网站http://domain.com，请将robots.txt放在您可以加载它的地方http://domain.com/robots.txt。

User-agent: * 
Disallow: /somewhere_i_dont_want_google_to_crawl.php 
Disallow: /dont_crawl_this_directory/

这里是堆栈溢出网站上真正的实用example。

2011-11-18 03:51:10 Deltik

谢谢。 “HTTP根”在哪里？我如何检查它是否实际生效？ – neversaint

我做了一个编辑并予以澄清。 Google有一篇关于robots.txt的文章：http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156449&from=35237&rd=1 – Deltik

但不这样做在whitehouse.gov白痴管理员在他们想保守秘密

哦，最后一件事，这个文件做的一切和列表 - 不信任它 - 它是“应该停止爬虫”，但我不会成为法律案件

2011-11-18 03:51:55

您可以在您的HTTP根目录中使用robots.txt，并且您还可以使用元标记（如果您的网页为HTML）来停止它太：

<meta name="googlebot" content="noindex" />

更多示例请参阅this website。

2011-11-18 03:53:52 Deco

回答