2012-04-17 77 views
0

我的服务器上最近出现了很多CPU峰值,不知何故,我认为这不是真正的流量,或者它的某些部分不是真实的。所以我现在只想让谷歌机器人,MSN和雅虎。如果以下robots.txt文件对我的要求是正确的,请指导我。这个Robots.txt文件是否正确?

 
User-agent: Googlebot 
User-agent: Slurp 
User-agent: msnbot 
User-agent: Mediapartners-Google* 
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler 
Disallow: 

User-agent: * 
Disallow:/

谢谢。

+1

检查你的服务器日志 – SLaks 2012-04-17 20:15:57

回答

0

,首先Disallow:也许应该是:

Allow:/
如果你想,其实,让所有用户代理索引你的网站

+1

实际上,该标准允许一个空白的'不允许:'。请参阅http://www.robotstxt.org/robotstxt.html上的示例。同样,http://www.robotstxt.org/orig.html – 2012-04-17 21:09:14

+0

“允许”的原始规范甚至不是原始的robots.txt规范的一部分(但许多解析器,包括谷歌的支持它)。 – unor 2014-02-17 13:12:06

0

您的robots.txt似乎有效。

  • 这是allowed to have several User-agent lines的记录。
  • Disallow:允许抓取所有内容。
  • User-agent: *开头的记录仅适用于未与上一条记录匹配的机器人。
  • Disallow: /禁止爬行任何东西。

但是请注意:只有漂亮的机器人遵循robots.txt中的规则 - 并且很可能是好的机器人不会过度使用常见的爬行频率。因此,无论你需要处理你的表现,还是不要这么好的机器人都应该受到指责。