如何禁止从robots.txt搜索页面

8

像这样的作品，通过谷歌网站管理员工具 “测试robots.txt” 功能确认：

User-Agent: * 
Disallow: /startup?page=

禁止的价值此字段指定不访问的部分网址。这可以是完整路径，或部分路径;任何使用此值开始的URL都不会被检索到。

然而，如果URL的第一部分将改变，你必须使用通配符：

User-Agent: * 
Disallow: /startup?page= 
Disallow: *page= 
Disallow: *?page=

来源

2009-10-04 22:24:25

3

你可以把这个你不希望索引的网页：

<META NAME="ROBOTS" CONTENT="NONE">

这告诉机器人不要索引页面。

在搜索页面，也可能是更有趣的使用方法：

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

这指示机器人不索引当前页面，但还是按照此页面上的链接，使他们能够获取到页面在搜索中找到。

来源

2009-10-04 22:25:11

2

创建一个文本文件，并将其命名为：的robots.txt
添加用户代理，并禁止部分（见下面的示例）
，将文件放在您的网站的根

样品：

############################### 
#My robots.txt file 
# 
User-agent: * 
# 
#list directories robots are not allowed to index 
# 
Disallow: /testing/ 
Disallow: /staging/ 
Disallow: /admin/ 
Disallow: /assets/ 
Disallow: /images/ 
# 
# 
#list specific files robots are not allowed to index 
# 
Disallow: /startup?page=2 
Disallow: /startup?page=3 
Disallow: /startup?page=3 
# 
# 
#End of robots.txt file 
# 
###############################

下面是谷歌的实际链接

你可以在blocking or removing pages using a robots.txt file

来源

2009-10-04 22:42:55

+0

感谢您的回答对谷歌网站管理员的帮助主题一些有用的信息，我忘了这里增加其他详情启动可随机/ XXXXX？ – pmarreddy 2009-10-04 22:48:39

+0

页面使用这种方法你必须要手动添加所有？page =（number），您可以根据规范保留该部分。 – 2009-10-04 22:53:57

如何禁止从robots.txt搜索页面

回答

相关问题