2010-12-10 29 views
1

link text如何刮这个JavaScript网站的图像?

这是一个数字图书库的链接。有向前和向后的按钮来查看下一页和上一页。我想自动下载这些图片。我曾经在Python中使用urllib,但网站很快就放弃了它。我只是想下载这本书作为学习目的,所以任何人都可以推荐一些编程工具,例如网页蜘蛛,它可以模拟翻页和自动获取图片的过程。谢谢!

回答

0

该网站使用了JavaScript,因此你不能轻易与Python刮它。两点建议:

  1. 找出点击下一个按钮时正在做什么请求。你可以用像萤火虫这样的工具来做到这一点。你可能会发现你可以在不处理任何JS的情况下刮掉它。

  2. 使用诸如Selenium之类的工具,它允许您执行JS的浏览器脚本。

为站点阻挡你,有两种方法,以减少被阻塞的机会:

  1. 更改您的用户代理到一个普通的浏览器,例如中Firefox浏览器。

  2. 在访问下一张图片之间添加随机延迟,使您看起来更像人。

0

你需要一个真正的浏览器来处理这种(种)的网站。硒是一种选择,但它更适合于Web测试。网络抓取iMacros真的很好。我有一个快速测试,它适用于Firefox/IE的iMacros。

Chris