-1
我想从网页中提取数据,为此,我需要完整的html页面。等待页面(用javaScript)加载和刮取html
import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()
我尝试了Python库ulrllib2,之后我运行代码,我fullhtml变量只包含一个网页的一部分,因为我想在页面的某些元素加载使用JavaScript,页面后加载..
有没有一种方法来等待“整页加载”,我也尝试过库“硒”,但我不认为它对我来说是有用的。 如果有另一种语言的解决方案(例如PHP),我愿意改变语言,做到这一点。
感谢澄清,和对不起我的英语
使用执行javascript的抓取程序或手动识别加载的部分(url)并获取它们。 – m02ph3u5
urllib2或Python核心中没有其他东西会在任何地方执行javascript –