等待页面（用javaScript）加载和刮取html

-1

我想从网页中提取数据，为此，我需要完整的html页面。等待页面（用javaScript）加载和刮取html

import urllib2 
req = urllib2.Request('https://www.example.com') 
response = urllib2.urlopen(req) 
fullhtml = response.read()

我尝试了Python库ulrllib2，之后我运行代码，我fullhtml变量只包含一个网页的一部分，因为我想在页面的某些元素加载使用JavaScript，页面后加载..

有没有一种方法来等待“整页加载”，我也尝试过库“硒”，但我不认为它对我来说是有用的。如果有另一种语言的解决方案（例如PHP），我愿意改变语言，做到这一点。

感谢澄清，和对不起我的英语

2016-03-06 koale

使用执行javascript的抓取程序或手动识别加载的部分（url）并获取它们。 – m02ph3u5

urllib2或Python核心中没有其他东西会在任何地方执行javascript –

看看这个http://phantomjs.org/。大多数网站都是基于javascript的，而php或python无法执行它们。我认为这个图书馆将是你能得到的最好的图书馆。

2016-03-06 16:10:31

回答