我想以某种复制/粘贴格式从页面获取所有信息,但由于安全限制,我无法使用站点中的urllib或json信息。我想知道是否有方法让python打开网页并复制实际页面本身,而不是从API中检索html代码或JSON?从没有urllib或json的站点获取信息
-3
A
回答
1
您可以通过selenium
加载一个真正的浏览器的网页并获取.page_source
:
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("url")
print(driver.page_source)
1
取决于...你只想使用标准的Python?如果是,则:
另有一个包如selenium
作为另一个答案提到。
你是什么意思_copy实际页面本身_?让浏览器渲染页面? – Finwood
我很好奇你对'实际页面'的定义吗?该页面是html和javascript。 –
[任何人都知道一个好的基于Python的网络爬虫,我可以使用?]可能的重复(http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler - 这是我可以使用) – kloddant