我是Python新手,在Windows(pywin)上使用Python 3.1。我需要解析一些HTML,在特定的HTML标签之间实现额外的值,并且对我的选项数组感到困惑,而且我发现的所有内容都适用于Python 2.x。我读过关于Beautiful Soup,HTML5Lib和lxml的热烈讨论,但我无法弄清楚如何在Windows上安装这些。用Python 3解析HTML的最佳库和例子?
问题:
- 你推荐什么HTML解析器?
- 我该如何安装? (很温柔,我对Python完全陌生,记得我在Windows上)
你有一个简单的例子来说明如何使用推荐的库从特定的URL中获取HTML并从中返回值是这样的:
< DIV CLASS = “foo” 的> <表> <TR> <TD>富</TD > </TR > < /表> <一类= “链接的” href ='/ blahblah '>链接</a > </DIV >
(比方说我们要返回 “/ blahblah”)
任何想法如何使用内置的HTML解析器来获取标签的内容? – Teifion 2010-11-09 17:18:58
美丽的汤有很好的写在它的当前状态。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork 2011-07-04 23:55:19