2009-10-04 66 views

回答

8

像这样的作品,通过谷歌网站管理员工具 “测试robots.txt” 功能确认:

User-Agent: * 
Disallow: /startup?page= 

禁止的价值此字段 指定不访问 的部分网址。这可以是完整路径, 或部分路径;任何使用此值开始 的URL都不会被检索到。

然而,如果URL的第一部分将改变,你必须使用通配符:

User-Agent: * 
Disallow: /startup?page= 
Disallow: *page= 
Disallow: *?page= 
3

你可以把这个你不希望索引的网页:

<META NAME="ROBOTS" CONTENT="NONE"> 

这告诉机器人不要索引页面。

在搜索页面,也可能是更有趣的使用方法:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> 

这指示机器人不索引当前页面,但还是按照此页面上的链接,使他们能够获取到页面在搜索中找到。

2
  1. 创建一个文本文件,并将其命名为:的robots.txt
  2. 添加用户代理,并禁止部分(见下面的示例)
  3. ,将文件放在您的网站的根

样品:

############################### 
#My robots.txt file 
# 
User-agent: * 
# 
#list directories robots are not allowed to index 
# 
Disallow: /testing/ 
Disallow: /staging/ 
Disallow: /admin/ 
Disallow: /assets/ 
Disallow: /images/ 
# 
# 
#list specific files robots are not allowed to index 
# 
Disallow: /startup?page=2 
Disallow: /startup?page=3 
Disallow: /startup?page=3 
# 
# 
#End of robots.txt file 
# 
############################### 

下面是谷歌的实际链接

你可以在blocking or removing pages using a robots.txt file

+0

感谢您的回答对谷歌网站管理员的帮助主题一些有用的信息,我忘了这里增加其他详情启动可随机/ XXXXX? – pmarreddy 2009-10-04 22:48:39

+0

页面使用这种方法你必须要手动添加所有?page =(number),您可以根据规范保留该部分。 – 2009-10-04 22:53:57