2016-03-06 49 views
-1

我想从网页中提取数据,为此,我需要完整的html页面。等待页面(用javaScript)加载和刮取html

import urllib2 
req = urllib2.Request('https://www.example.com') 
response = urllib2.urlopen(req) 
fullhtml = response.read() 

我尝试了Python库ulrllib2,之后我运行代码,我fullhtml变量只包含一个网页的一部分,因为我想在页面的某些元素加载使用JavaScript,页面后加载..

有没有一种方法来等待“整页加载”,我也尝试过库“硒”,但我不认为它对我来说是有用的。 如果有另一种语言的解决方案(例如PHP),我愿意改变语言,做到这一点。

感谢澄清,和对不起我的英语

+0

使用执行javascript的抓取程序或手动识别加载的部分(url)并获取它们。 – m02ph3u5

+0

urllib2或Python核心中没有其他东西会在任何地方执行javascript –

回答

1

看看这个http://phantomjs.org/。大多数网站都是基于javascript的,而php或python无法执行它们。我认为这个图书馆将是你能得到的最好的图书馆。