我们遇到了所有页面链接被抓取并继续抓取的情况。页面链接包含“〜/ {someTerm}/{someOtherTerm}/__ p/##/##”。新404如何找不到索引页面影响排名?
现在的问题是,现在Google和MSN漫游器都在爬行成千上万的页面,这些页面不需要被抓取并导致系统紧张。
因此,我们将分页链接更改为一个Javascript链接,并删除了所有包含“__p”的URL,以便它们现在返回404 - Page Not Found。我们真的只想索引第1页,也许以后有一两页(但现在不担心)
有没有办法使用WebMasterTools for Google和MSNBot在URL中删除所有包含“__p”的页面,并且如果是这样,怎么样?
感谢。
使用机器人文本文件来定义什么是关闭的限制:http://www.robotstxt.org/ – TheZ 2012-08-15 20:13:45
在这种情况下,将“禁止:/ * __ P”中的robots.txt做的伎俩? – ElHaix 2012-08-15 20:20:48
我会使用'/ * __ p $'来明确它位于路径的尽头,但是,应该这样做。注意:通配符适用于Microsoft和Google,但可能不是所有爬行者(尊重标准robots.txt的爬行者) – TheZ 2012-08-15 20:24:32