2011-09-07 56 views
5

我们要建立在我们的HTML的身体一点点蜜罐的图像来检测刮刀/坏机器人。咨询检测刮刀/坏机器人

有没有人在之前设置过类似的东西?

我们想最好的方式去在这将是:

一)通过注释的HTML出来:

<!-- <img src="http://www.domain.com/honeypot.gif"/> --> 

B)CSS样式应用于图像,将使其隐藏从通过浏览器:

.... id="honeypot" .... 

#honeypot{ 
    display:none; 
    visibility:hidden; 
} 

使用上面没有人预见到其中一个适当的和真正的用户代理会拉的图像/企图使其任何情况呢?

的honeypot.gif将是一个mod_rewritten PHP脚本,我们将尽我们的记录。

虽然我明白,上述2个条件可以通过任何编码刮刀被跳过,这样做至少可以洒在很脏的人的一些见解。

任何其他的指针,以最好的方式去呢?

+0

你对“坏机器人”的定义是什么?你想阻止什么样的事情?一个在抓取你的页面时表现不佳的bot可能不会成为像这样的html解析事件的受害者 - 你可能无法抓住它。可能有更简单的方法来检测您要查找的内容。 –

+0

我不明白这是一个蜜罐实现。通常它涉及一个表单域,它通过脚本/ css让用户隐藏起来,这些脚本不知不觉地填充。 – TheCodeKing

+0

尽管它听起来过于宽泛,但我们对坏bot/scraper的定义是通过useragent不能识别源产品(阅读:domain.com)或者说domain.com不提供禁止通过机器人访问的方法。文本。我们看到很多这些小蚂蚁。我们已经有了一个相当全面的系统,可以让我们通过useragent /缺乏,缺少接受标题,命中/间隔等等等等来检测这些。所以这将是这个系统的进一步补充,可以给我们一个额外的+在哪些方面集中手动人力。 –

回答

3

机器人会忽略您的img标签,因为它在评论中。

相反,你可以考虑创建包含在同一网站上的链接触发URL一种无形的div(最好在同一目录下,如果机器人是深度敏感)。

+0

+1为深度敏感。 –

+0

我们最终做了两个,隐藏的图像和隐藏的链接。谢谢! –

0

国际海事组织我认为任何好的刮板都会知道如何通过使用SGML parser的HTML,并且只是跳过评论的图像,但我可能是错的。

在最当它发生,但并没有提供一种方式,在刮刀来对付它会给你一个想法。你可能会更好地提出一些基于cookie的解决方案,因为大多数机器人可能不关心这些。您也可以在请求之间随机化图像路径,并在短时间后过期。

检查引荐是一个明显的例子,如果你不关心不支持他们,隐藏/改变他们的浏览器或人。