2009-05-30 116 views
4

我想知道是否有任何技术来识别收集非法使用信息的网络爬虫。说白了,数据被盗用来创建一个网站的副本。识别敌对网络爬虫

理想情况下,该系统会检测来自未知来源的抓取模式(如果不在列表中,则使用Google抓取工具等),并将伪造信息发送给抓取抓取工具。

  • 如果作为防御者,我会定期检测到一个未知的爬行器,它会定时击中站点,攻击者会随机分配这些间隔。
  • 如果作为防御者,我检测到相同的代理/ IP,攻击者会随机分配代理。

而这正是我迷路了 - 如果攻击者会随机间隔代理,我将如何对代理和机打从同一网络的网站区别?

我想用javascript和cookie支持检查可疑代理。如果柏忌无法做到一致,那么这是一个坏人。

我还能做什么?是否有任何算法,甚至是为快速即时分析历史数据而设计的系统?

回答

9

我的解决方案是制作一个陷阱。在robots.txt禁止访问您的网站上放置一些页面。在你的页面上建立一个链接,但用CSS隐藏它,然后ip禁止任何进入该页面的人。

这将迫使犯罪者服从robots.txt,这意味着你可以将重要的信息或服务永久地放在他的旁边,这将使他的副本克隆无用。

+1

什么阻止攻击者改变他的抓取工具来忽略隐藏的链接?通过自动扫描并将.css与链接或链接区域类进行比较,或者只是每天查看源代码并快速更改为他的抓取工具中的忽略链接列表? 如果他制定一种算法来验证链接内容的质量以避免陷阱链接,该怎么办? – ian 2009-06-08 17:48:02

+0

没有隐藏CSS链接认为由谷歌机器人作弊(无论是为了什么目的,他们不会在乎)? – Marek 2010-04-19 14:38:26

2

不要试图通过IP和时间或间隔来识别 - 使用您发送给抓取工具的数据来追踪它们。

创建一个已知良好抓取工具的白名单 - 您将正常为其提供内容。其余部分则为您提供额外的独特内容,只有您才会知道如何寻找。使用该签名来稍后确定谁在复制您的内容并将其阻止。

2

您如何阻止某人雇用一个工资较低的国家的人使用浏览器访问您的网站并记录所有信息?设置一个robots.txt文件,投资一个安全基础设施来防止DoS攻击,混淆你的代码(如果可以访问,比如javascript),为你的发明申请专利,并为你的网站提供版权。让合法人士担心有人把你甩开。