2011-10-04 85 views
5

我有一个网站更新(人们可以更新内容(文本),而不是网站的外观),其中有HTML,JavaScript作为前端语言& Python作为后端/服务器端。最佳Python模块的HTML解析

我发现,更新HTML是从前端非常困难的,因为当我通过ele.innerHTML$(ELE)的.html()给出了根据浏览器的HTML改变(抢更新HTML该死IE)。

所以我决定更新从后端,即我的HTML,在Python

你认为什么是最好的Python模块来解析HTML &抢信息?

我的要求是:
- 该模块是ATLEAST在Python 2.5或更小(因为我的虚拟主机提供商的)
- 我会被解析HTML &发现是类的所有HTML元素“更新”
- 对于类“更新”中的每个元素:提取的innerText(而不是HTML纯文本/内容)

你会建议哪个Python模块是最好的呢?
- HTMLParser.py
- htmllib.py
- 任何其他的Python 2.5兼容模块的知道吗?

回答

5

我一直在使用LXML(http://lxml.de/lxmlhtml.html)。它对于正常大小的html文档相对较快,并且支持使用BeautifulSoup。据我了解,BeautifulSoup不再支持,所以我已经使用lxml的所有新项目。

+4

美丽的汤现在似乎再次活跃,从2012年7月3日发布。http://www.crummy.com/software/BeautifulSoup/ – jforberg

+0

的确,这是个好消息! – David

8

分析HTML我建议你看一看美丽的汤。它非常强大,并且可以处理一些混乱的标记。

http://www.crummy.com/software/BeautifulSoup/

检查了这一点,看看它是否可以帮助你!希望它。

+0

作为一名负责人,BeautifulSoup不再支持它的作者,而且核心依赖项SQMLParser已被弃用于Python3。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – David

+0

我的坏,不知道的是,我会起来在这种情况下LXML选项。 – pcalcao

+0

这真的很不幸,因为BeautifulSoup仍然是一个伟大的工具。 – David