2010-07-29 68 views
0

我需要一个从浏览器获取HTML内容的解决方案。在浏览器中渲染时,js将会运行,如果没有,js将不会运行。所以任何html库如lxml,beautifulsoup和其他都不会工作。 我已经搜索了一个名为pywebkitgtk的项目,但它的目的是创建一个带有前端的浏览器。 有什么办法可以将网址放入“假浏览器”并渲染并运行其全部javascript并将其保存到html文件中?我不需要任何前端,只是后端没问题。如何从浏览器中获取html内容,然后执行html更正和js脚本?

我需要使用Python或Java来做到这一点。

回答

3

selenium-rc允许您在您选择的几种语言(包括Python和Java)的控制下为您的目的驱动实际的浏览器。一探究竟!

有关Python使用的详细示例,请参见here

+0

我不明白。这个Selenium RC接受一个url并返回一个由我选择的任何浏览器呈现的html,对吗? – davidx 2010-07-29 03:21:11

+1

@davidx,这只是开始 - 渲染包括JS执行,然后你可以用selenium类的get_html_source方法将得到的页面的主体作为HTML获得(即使这只是开始,因为你可以与如果需要,发送鼠标点击等等,但是我收集到的只是让JS在加载时执行,然后获取HTML源代码,而且使用selenium-rc可以让许多人它让你控制浏览器)。 – 2010-07-29 04:12:39

+0

很好,谢谢Alex! – davidx 2010-07-29 05:38:02

相关问题