2014-10-02 50 views
0

如何禁用和删除subdomain.domain.com被抓取并列入alexa和其他抓取工具?特别是cpanel.domain.comwebmail.domain.com,列入我的alexa信息页面并讨厌:/。禁用抓取不需要的子域

回答

0

从这篇文章:https://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa的web爬行器(机器人)自身标识为在HTTP“ia_archiver”,“用户代理”首部字段。 Alexa Internet ia_archiver爬虫严格遵守robots.txt规则。

为了防止ia_archiver访问您的网站的任何部分,你的robots.txt文件应该是这样的:

User-agent: ia_archiver 
Disallow:/

您还可以限制特定目录的爬行。例如,为了防止ia_archiver从来访的图像目录(及其子目录):

User-agent: ia_archiver 
Disallow: /images/ 

如果你能,你可以在你不希望有爬子域的根放置robots.txt。如果这些页面不在您的控制范围之内;托管服务应该/可能已经完成了这些或类似的限制。

+0

谢谢。但我使用共享主机,并且没有名为“cpanel”或“webmail”的目录。我应该联系我的托管服务? – AliN11 2014-10-02 07:10:56

+0

这就是我会做的。对这些子域禁用爬网似乎是一种很好的做法。我很惊讶他们没有做到这一点。您可以通过转到网址“subdomain.domain.com/robots.txt”来检查“robots.txt”文件。 – 2014-10-02 07:13:20

+0

在'cpanel.domain.com'中没有'robot.txt'。 '404错误' – AliN11 2014-10-02 07:16:54