2012-08-15 80 views
0

我们遇到了所有页面链接被抓取并继续抓取的情况。页面链接包含“〜/ {someTerm}/{someOtherTerm}/__ p/##/##”。新404如何找不到索引页面影响排名?

现在的问题是,现在Google和MSN漫游器都在爬行成千上万的页面,这些页面不需要被抓取并导致系统紧张。

因此,我们将分页链接更改为一个Javascript链接,并删除了所有包含“__p”的URL,以便它们现在返回404 - Page Not Found。我们真的只想索引第1页,也许以后有一两页(但现在不担心)

有没有办法使用WebMasterTools for Google和MSNBot在URL中删除所有包含“__p”的页面,并且如果是这样,怎么样?

感谢。

+0

使用机器人文本文件来定义什么是关闭的限制:http://www.robotstxt.org/ – TheZ 2012-08-15 20:13:45

+0

在这种情况下,将“禁止:/ * __ P”中的robots.txt做的伎俩? – ElHaix 2012-08-15 20:20:48

+0

我会使用'/ * __ p $'来明确它位于路径的尽头,但是,应该这样做。注意:通配符适用于Microsoft和Google,但可能不是所有爬行者(尊重标准robots.txt的爬行者) – TheZ 2012-08-15 20:24:32

回答

1

我认为你应该使用在这些网页上<meta>标签,你想从搜索引擎中删除。

<meta name="robots" content="noindex, nofollow" /> 

此外,您还可以尝试使用robots.txt排除,看看这site

User-agent: * 
Disallow: /*___p 
+0

同意,如果元标记可以添加到这些页面,它是更为理想的,因为所有爬虫都可以理解。 – TheZ 2012-08-15 20:35:39