这个Robots.txt文件是否正确？

我的服务器上最近出现了很多CPU峰值，不知何故，我认为这不是真正的流量，或者它的某些部分不是真实的。所以我现在只想让谷歌机器人，MSN和雅虎。如果以下robots.txt文件对我的要求是正确的，请指导我。这个Robots.txt文件是否正确？

 
User-agent: Googlebot 
User-agent: Slurp 
User-agent: msnbot 
User-agent: Mediapartners-Google* 
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler 
Disallow: 

User-agent: * 
Disallow:/

谢谢。

来源

2012-04-17 Junaid Ali

检查你的服务器日志 – SLaks 2012-04-17 20:15:57

，首先Disallow:也许应该是：

Allow:/

如果你想，其实，让所有用户代理索引你的网站

。

来源

2012-04-17 20:19:44

实际上，该标准允许一个空白的'不允许：'。请参阅http://www.robotstxt.org/robotstxt.html上的示例。同样，http://www.robotstxt.org/orig.html – 2012-04-17 21:09:14

“允许”的原始规范甚至不是原始的robots.txt规范的一部分（但许多解析器，包括谷歌的支持它）。 – unor 2014-02-17 13:12:06

您的robots.txt似乎有效。

这是allowed to have several User-agent lines的记录。
Disallow:允许抓取所有内容。
以User-agent: *开头的记录仅适用于未与上一条记录匹配的机器人。
Disallow: /禁止爬行任何东西。

但是请注意：只有漂亮的机器人遵循robots.txt中的规则 - 并且很可能是好的机器人不会过度使用常见的爬行频率。因此，无论你需要处理你的表现，还是不要这么好的机器人都应该受到指责。

来源

2014-02-17 13:18:14 unor

这个Robots.txt文件是否正确？

回答

相关问题