如何从浏览器中获取html内容，然后执行html更正和js脚本？

我需要一个从浏览器获取HTML内容的解决方案。在浏览器中渲染时，js将会运行，如果没有，js将不会运行。所以任何html库如lxml，beautifulsoup和其他都不会工作。我已经搜索了一个名为pywebkitgtk的项目，但它的目的是创建一个带有前端的浏览器。有什么办法可以将网址放入“假浏览器”并渲染并运行其全部javascript并将其保存到html文件中？我不需要任何前端，只是后端没问题。如何从浏览器中获取html内容，然后执行html更正和js脚本？

我需要使用Python或Java来做到这一点。

来源

2010-07-29 davidx

selenium-rc允许您在您选择的几种语言（包括Python和Java）的控制下为您的目的驱动实际的浏览器。一探究竟！

有关Python使用的详细示例，请参见here。

来源

2010-07-29 02:53:11

我不明白。这个Selenium RC接受一个url并返回一个由我选择的任何浏览器呈现的html，对吗？ – davidx 2010-07-29 03:21:11

@davidx，这只是开始 - 渲染包括JS执行，然后你可以用selenium类的get_html_source方法将得到的页面的主体作为HTML获得（即使这只是开始，因为你可以与如果需要，发送鼠标点击等等，但是我收集到的只是让JS在加载时执行，然后获取HTML源代码，而且使用selenium-rc可以让许多人它让你控制浏览器）。 – 2010-07-29 04:12:39

很好，谢谢Alex！ – davidx 2010-07-29 05:38:02

如何从浏览器中获取html内容，然后执行html更正和js脚本？

回答

相关问题