2011-02-03 167 views
4

我试图抓取一个网站,有一个分裂的第二个JavaScript延迟。用javascript屏幕拖延网站延迟

我目前正在使用python进行刮擦。每当我'获得'的页面,JavaScript延迟尚未完成,尚未完全加载新的DOM。

我该如何刮这样的pge?

+0

你可以发布你想要刮的URL吗,或者更好的还是一个能够重现行为的最小例子? – fmark 2011-02-03 08:07:01

回答

1

可以扩展的Mozilla建立一个网站刮板可以利用网络浏览器的全部功能。在加载所有数据并构建了DOM之后,可以使用XSLT从DOM中提取所需的数据。如果DOM在初始加载后动态更改,则可以采取一些方法来等待更改。请访问http://www.gooseeker.com了解更多信息。 GooSeeker为每个人免费发布一个类似的工具。大部分代码都是用JavaScript编写的,可以从中找到它的运行方式。