2011-11-18 89 views

回答

3

在您的HTTP根目录下创建一个robots.txt文件。如果您有一个网站http://domain.com,请将robots.txt放在您可以加载它的地方http://domain.com/robots.txt

User-agent: * 
Disallow: /somewhere_i_dont_want_google_to_crawl.php 
Disallow: /dont_crawl_this_directory/ 

这里是堆栈溢出网站上真正的实用example

+0

谢谢。 “HTTP根”在哪里?我如何检查它是否实际生效? – neversaint

+1

我做了一个编辑并予以澄清。 Google有一篇关于robots.txt的文章:http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156449&from=35237&rd=1 – Deltik

1

结帐离开robots.txt file

但不这样做在whitehouse.gov白痴管理员在他们想保守秘密

哦,最后一件事,这个文件做的一切和列表 - 不信任它 - 它是“应该停止爬虫”,但我不会成为法律案件

2

您可以在您的HTTP根目录中使用robots.txt,并且您还可以使用元标记(如果您的网页为HTML)来停止它太:

<meta name="googlebot" content="noindex" /> 

更多示例请参阅this website