2009-10-07 80 views

回答

4

您是否考虑过使用robots.txt文件来最大限度地减少自动化捕捉工具产生的无用流量?

对于每个用户代理(即每个蜘蛛),您可以有多个Disallow行。这是一个较长的robots.txt文件的例子:

User-agent: * 
Disallow: /images/ 
Disallow: /cgi-bin/ 

User-agent: Googlebot-Image 
Disallow:/

这里是禁止一切除了谷歌

User-agent: * 
Disallow:/

User-agent: Googlebot 
allow:/

一句警告的例子:这种方法不能保证要阻止不允许的代理商访问您的网站,它会以大多数这些工具能够理解的标准方式很好地提供给他们。

+0

他正在考虑允许漫游和否定别人。这不会帮助。 – 2009-10-07 19:13:56

+0

@Mike:再次阅读。他明确表示“强制从所有IP地址登录不是前四名的搜索引擎”。基本上,他只想允许某些“机器人”;这在robots.txt文件中涵盖了 – NotMe 2009-10-07 19:23:44

+0

我认为这里的问题对于目标是不明确的。我之所以读它,是因为他想限制访问不是前4名搜索引擎的机器人,但它可以轻松地阅读为说任何不是来自前4名搜索引擎的访问都需要登录。 – 2009-10-07 19:24:45

0

是的。您可以强制登录除少数IP地址以外的所有页面。这取决于您使用的是什么Web服务器以及允许哪种访问控制?

0

,如果你想不同的是顶部4搜索引擎为大家强制logind,你可以要求从每个人登录不同的是顶部4搜索引擎或自动登录他们

相关问题