我有多个门户DotNetNuke的安装:
domain1.com
domain2.com
domain3.com等DotNetNuke的robots.txt的不被谷歌机器人荣幸
服务器是32个演出,8个核心。
我有一个robots.txt文件。当谷歌开始爬行时,我发现多个谷歌IP地址的CPU时间达到100%。根据IIS的说法,它每次尝试抓取的网址都是/lmm-product-service/elmah.axd/detail?id=af51e96f-d0cd-4598-90ad-ebe980947fa6,并且每次都有一个新的ID。该网址对所有当前的谷歌机器人实例都是相同的,但是当爬虫再次开始时会发生变化。
该网址无效。当我尝试在浏览器中访问它时,出现404错误 - 未找到。
我试图在我的robots.txt来禁止/ LMM产品服务/无济于事:
User-agent: Googlebot
Disallow: /*/ctl/ # Googlebot permits *
Disallow: /admin/
Disallow: /lmm-product-service/
它实际上不是只有谷歌这样做。这也是ahrefs,但我已经阻止他们在防火墙。
有什么建议吗?
是的。 IP地址指向谷歌机器人。我正在使用dnn 8. – Chris
如果DNN社区版本升级很容易 –
是的,那不是问题。 DNN 8不使用elmah。就像我说的那样,这个网址甚至都不是有效的,但漫游器仍在尝试抓取它并且不遵守robots.txt。有什么建议么? – Chris