我想知道是否有任何技术来识别收集非法使用信息的网络爬虫。说白了,数据被盗用来创建一个网站的副本。识别敌对网络爬虫
理想情况下,该系统会检测来自未知来源的抓取模式(如果不在列表中,则使用Google抓取工具等),并将伪造信息发送给抓取抓取工具。
- 如果作为防御者,我会定期检测到一个未知的爬行器,它会定时击中站点,攻击者会随机分配这些间隔。
- 如果作为防御者,我检测到相同的代理/ IP,攻击者会随机分配代理。
而这正是我迷路了 - 如果攻击者会随机间隔和代理,我将如何不对代理和机打从同一网络的网站区别?
我想用javascript和cookie支持检查可疑代理。如果柏忌无法做到一致,那么这是一个坏人。
我还能做什么?是否有任何算法,甚至是为快速即时分析历史数据而设计的系统?
什么阻止攻击者改变他的抓取工具来忽略隐藏的链接?通过自动扫描并将.css与链接或链接区域类进行比较,或者只是每天查看源代码并快速更改为他的抓取工具中的忽略链接列表? 如果他制定一种算法来验证链接内容的质量以避免陷阱链接,该怎么办? – ian 2009-06-08 17:48:02
没有隐藏CSS链接认为由谷歌机器人作弊(无论是为了什么目的,他们不会在乎)? – Marek 2010-04-19 14:38:26