最佳Python模块的HTML解析

我有一个网站更新（人们可以更新内容（文本），而不是网站的外观），其中有HTML，JavaScript作为前端语言& Python作为后端/服务器端。最佳Python模块的HTML解析

我发现，更新HTML是从前端非常困难的，因为当我通过ele.innerHTML或$（ELE）的.html（）给出了根据浏览器的HTML改变（抢更新HTML该死IE）。

所以我决定更新从后端，即我的HTML，在Python

你认为什么是最好的Python模块来解析HTML &抢信息？

我的要求是：
- 该模块是ATLEAST在Python 2.5或更小（因为我的虚拟主机提供商的）
- 我会被解析HTML &发现是类的所有HTML元素“更新”
- 对于类“更新”中的每个元素：提取的innerText（而不是HTML纯文本/内容）

你会建议哪个Python模块是最好的呢？
- HTMLParser.py
- htmllib.py
- 任何其他的Python 2.5兼容模块的知道吗？

2011-10-04 Jake M

我一直在使用LXML（http://lxml.de/lxmlhtml.html）。它对于正常大小的html文档相对较快，并且支持使用BeautifulSoup。据我了解，BeautifulSoup不再支持，所以我已经使用lxml的所有新项目。

2011-10-04 23:32:50 David

美丽的汤现在似乎再次活跃，从2012年7月3日发布。http://www.crummy.com/software/BeautifulSoup/ – jforberg

的确，这是个好消息！ – David

分析HTML我建议你看一看美丽的汤。它非常强大，并且可以处理一些混乱的标记。

检查了这一点，看看它是否可以帮助你！希望它。

2011-10-04 23:27:18 pcalcao

作为一名负责人，BeautifulSoup不再支持它的作者，而且核心依赖项SQMLParser已被弃用于Python3。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – David

我的坏，不知道的是，我会起来在这种情况下LXML选项。 – pcalcao

这真的很不幸，因为BeautifulSoup仍然是一个伟大的工具。 – David

回答