我一直在使用BeautifulSoup,但据我所知,库不再被维护。那我该用什么?我听说过Xpath,但还有什么?没有更多BeautifulSoup
回答
有一个bugfix release in April,所以我也不知道你在哪里得到的想法,它不再维持。然而,即使这是真的,BeautifulSoup仍然有很多功能,我甚至都没有看到即使目前的实现很快就会崩溃。您可能会在未来2年内开始遇到HTML 5的问题(虽然有很少的怪癖,因此解析起来更容易,至少目前为止),但没有特别的理由不使用BeautifulSoup。 Google社群仍然积极支持Google等群组,并且显然可以根据您的需要随时增强源代码。
酷..非常感谢你:-) – 2010-07-17 18:10:38
那么,如果你不是义务绑定到python,你总是可以使用TagSoup解析器。这是一个Java库,但它提供了非常好的结果。在尝试解析它之前,您也可以使用Tidy清理输入。
Python是我所知道的,我正在学习的时刻。 – 2010-07-17 18:13:29
我会避开lxml
,它对我的口味太挑剔了。如果我是你,我会尝试html5lib
。它不仅解析html,而且强大地处理您在标签汤中看到的那种称为无效html的错误。
它甚至有一个BeautifulSoup仿真模式,产生于美丽的汤的形式来缓解整个移植旧代码解析树:
import html5lib
from html5lib import treebuilders
f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)
- 1. py2app没有找到BeautifulSoup
- 2. BeautifulSoup没有发现属性
- 3. BeautifulSoup没有返回结果
- 4. Beautifulsoup没有得到所有tr在表
- 5. BeautifulSoup + HTML + Regex = ...什么都没有?
- 6. BeautifulSoup:'ResultSet'对象没有属性'find_all'
- 7. BeautifulSoup没有正确读取文档
- 8. Beautifulsoup没有达到一个子元素
- 9. Python中没有找到由BeautifulSoup
- 10. python没有内容的Beautifulsoup count元素
- 11. 没有名为beautifulsoup的模块
- 12. Python和BeautifulSoup,没有找到 'A'
- 13. 没有更多SQL备份
- 14. 多重BeautifulSoup bs4.element.Tag
- 15. beautifulsoup ATTRS匹配太多
- 16. python beautifulsoup搜索多行
- 17. beautifulsoup“列表对象有没有属性”的错误
- 18. AttributeError的:模块 'BS4' 有没有属性 'BeautifulSoup'
- 19. BeautifulSoup的FindAll“名单”对象有没有属性“find_all”
- 20. 如何recv直到theres没有更多的recv没有eof?
- 21. Loop Preg_match直到没有更多匹配
- 22. 没有更多的MySQL表优化?
- 23. 没有更多scrollViewDidEndScrollingAnimation委托弹跳后
- 24. 编辑UiTabBar没有更多选项卡?
- 25. java.lang.OutOfMemoryError:Java堆空间没有更多空间
- 26. HQL多次更新。有没有更好的办法?
- 27. 猫鼬:mongodb更新与多真没有更新所有文件
- 28. BeautifulSoup与“加载更多”的分页列表
- 29. BeautifulSoup webscraping负载更多的从阿贾克斯的JSON数据
- 30. BeautifulSoup返回比所需的浮点数更多
“这取决于”。你在寻找一个XML解析器还是一个真实的html解析器? – 2010-07-14 08:35:32
“库不再被维护”。请提供这一说法的证据。 – 2010-07-14 12:18:07
嗯,事情是,我的一个同事告诉我,这个人通常是很了解..但显然不是在这种情况下 – 2010-07-17 18:12:28