2010-06-29 92 views
2

有很多方法可以假装成为一个人。那么,看过去的最好方法是什么?探测网络爬虫的最佳和最有效的方法

+0

配置您的Web服务器以包含Voight-Kampff响应标头 – paintcan 2010-06-29 19:12:08

+1

请参阅http://stackoverflow.com/questions/233192/detecting-stealth-web-crawlers – Rob 2010-06-29 19:15:49

回答

0

最有效的方法是Captha,但可以使您的网站不太友好。因此,最好的方法是分析你的交通程序,只要你的代码检测到一些不寻常的东西,只要求用户在严格的时间线上回答captha。

只要理解基本的基础。没有人写一个爬虫来阅读一个页面或文章。有些人想要这一切,有些人希望速度快,而有些则希望经常。有些甚至可能来自不同的知识产权,但他们以相同的时间间隔打相同的风格。爬虫和人类之间最大的区别在于爬虫是什么时候击中,人类是懒惰的纪律。爬行者的效率足以让许多命中在一起,人类不是,等等。任何听起来好像流量日志中的模式都是爬行器。