我试图抓取一个网站,有一个分裂的第二个JavaScript延迟。用javascript屏幕拖延网站延迟
我目前正在使用python进行刮擦。每当我'获得'的页面,JavaScript延迟尚未完成,尚未完全加载新的DOM。
我该如何刮这样的pge?
我试图抓取一个网站,有一个分裂的第二个JavaScript延迟。用javascript屏幕拖延网站延迟
我目前正在使用python进行刮擦。每当我'获得'的页面,JavaScript延迟尚未完成,尚未完全加载新的DOM。
我该如何刮这样的pge?
可靠的方法是通过网页浏览器或网页浏览器控件刮掉它, G。与我的宏scraping commands。它也可以通过Python/Linux。
您还可以通过自己在Windows上WebBrowser控件的代码如下:http://www.codeproject.com/KB/cs/webbrowser.aspx
可以扩展的Mozilla建立一个网站刮板可以利用网络浏览器的全部功能。在加载所有数据并构建了DOM之后,可以使用XSLT从DOM中提取所需的数据。如果DOM在初始加载后动态更改,则可以采取一些方法来等待更改。请访问http://www.gooseeker.com了解更多信息。 GooSeeker为每个人免费发布一个类似的工具。大部分代码都是用JavaScript编写的,可以从中找到它的运行方式。
你可以发布你想要刮的URL吗,或者更好的还是一个能够重现行为的最小例子? – fmark 2011-02-03 08:07:01