我们要建立在我们的HTML的身体一点点蜜罐的图像来检测刮刀/坏机器人。咨询检测刮刀/坏机器人
有没有人在之前设置过类似的东西?
我们想最好的方式去在这将是:
一)通过注释的HTML出来:
<!-- <img src="http://www.domain.com/honeypot.gif"/> -->
B)CSS样式应用于图像,将使其隐藏从通过浏览器:
.... id="honeypot" ....
#honeypot{
display:none;
visibility:hidden;
}
使用上面没有人预见到其中一个适当的和真正的用户代理会拉的图像/企图使其任何情况呢?
的honeypot.gif将是一个mod_rewritten PHP脚本,我们将尽我们的记录。
虽然我明白,上述2个条件可以通过任何编码刮刀被跳过,这样做至少可以洒在很脏的人的一些见解。
任何其他的指针,以最好的方式去呢?
你对“坏机器人”的定义是什么?你想阻止什么样的事情?一个在抓取你的页面时表现不佳的bot可能不会成为像这样的html解析事件的受害者 - 你可能无法抓住它。可能有更简单的方法来检测您要查找的内容。 –
我不明白这是一个蜜罐实现。通常它涉及一个表单域,它通过脚本/ css让用户隐藏起来,这些脚本不知不觉地填充。 – TheCodeKing
尽管它听起来过于宽泛,但我们对坏bot/scraper的定义是通过useragent不能识别源产品(阅读:domain.com)或者说domain.com不提供禁止通过机器人访问的方法。文本。我们看到很多这些小蚂蚁。我们已经有了一个相当全面的系统,可以让我们通过useragent /缺乏,缺少接受标题,命中/间隔等等等等来检测这些。所以这将是这个系统的进一步补充,可以给我们一个额外的+在哪些方面集中手动人力。 –