我需要禁止http://example.com/startup?page=2搜索页面被索引。如何禁止从robots.txt搜索页面
我想要http://example.com/startup被索引但不是http://example.com/startup?page=2和page3等等。
另外,启动可以是随机的,例如,http://example.com/XXXXX?page
我需要禁止http://example.com/startup?page=2搜索页面被索引。如何禁止从robots.txt搜索页面
我想要http://example.com/startup被索引但不是http://example.com/startup?page=2和page3等等。
另外,启动可以是随机的,例如,http://example.com/XXXXX?page
像这样的作品,通过谷歌网站管理员工具 “测试robots.txt” 功能确认:
User-Agent: *
Disallow: /startup?page=
禁止的价值此字段 指定不访问 的部分网址。这可以是完整路径, 或部分路径;任何使用此值开始 的URL都不会被检索到。
然而,如果URL的第一部分将改变,你必须使用通配符:
User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=
你可以把这个你不希望索引的网页:
<META NAME="ROBOTS" CONTENT="NONE">
这告诉机器人不要索引页面。
在搜索页面,也可能是更有趣的使用方法:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
这指示机器人不索引当前页面,但还是按照此页面上的链接,使他们能够获取到页面在搜索中找到。
样品:
###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
#
#
#End of robots.txt file
#
###############################
下面是谷歌的实际链接
感谢您的回答对谷歌网站管理员的帮助主题一些有用的信息,我忘了这里增加其他详情启动可随机/ XXXXX? – pmarreddy 2009-10-04 22:48:39
页面使用这种方法你必须要手动添加所有?page =(number),您可以根据规范保留该部分。 – 2009-10-04 22:53:57