对于完全非恶意的目的 - 特别是机器学习,我想下载一个CAPTCHA图像的巨大数据集。然而,CAPTCHA总是使用一些混淆的javascript来实现,这使得在没有浏览器的情况下获得实际的图像是一件不平凡的任务,至少对我来说,这是一个JavaScript新手。脚本下载CAPTCHA图像
所以,任何人都可以给我一些有用的指针,如何使用完全在浏览器之外的脚本下载隐藏的词的图像?并且请不要指向我已经收集到的模糊词语的数据集 - 我需要从特定网站收集特定实验的图像。
谢谢!
编辑:这个问题可以被问到的另一种方式是非常简单的。当你点击网站上的“查看源代码”时,你会看到脚本引用,但这就是你所看到的。但是,如果您点击“保存网页为...”(在Firefox中),然后查看保存的网页的来源,javascript将被解析并且新的html和图像(至少在ASIRRA和reCAPTCHA的情况下)在源头中。如何使用脚本模仿这种“将网页另存为...”行为?这是一个重要的网络编码问题,请不要再质疑我的动机了!这是我可以从所有涉及脚本的Web开发中使用的知识,我相信其他堆栈溢出访问者也可以!
如何问网站的所有者?如果它是非邪恶的...... – Greg 2009-10-09 13:57:41
该网站实际上是微软的研究项目名为ASIRRA,它使用的猫狗,而不是模糊的话 - 但它在基本相同的方式来实现。他们有一个公开的数据集,但它太小了。 – JoeCool 2009-10-09 14:00:27
@格雷格:同意,礼貌的事情是你之前批量下载的内容与网站所有者联系,吸了大量的带宽。 – RedFilter 2009-10-09 14:02:49