用Python 3解析HTML的最佳库和例子？

我是Python新手，在Windows（pywin）上使用Python 3.1。我需要解析一些HTML，在特定的HTML标签之间实现额外的值，并且对我的选项数组感到困惑，而且我发现的所有内容都适用于Python 2.x。我读过关于Beautiful Soup，HTML5Lib和lxml的热烈讨论，但我无法弄清楚如何在Windows上安装这些。用Python 3解析HTML的最佳库和例子？

问题：

你推荐什么HTML解析器？
我该如何安装？（很温柔，我对Python完全陌生，记得我在Windows上）
你有一个简单的例子来说明如何使用推荐的库从特定的URL中获取HTML并从中返回值是这样的：

< DIV CLASS = “foo” 的> <表> <TR> <TD>富</TD > </TR > < /表> <一类= “链接的” href ='/ blahblah '>链接</a > </DIV >

（比方说我们要返回 “/ blahblah”）

来源

2010-03-24 TMC

Python 3中的网页抓取目前支持非常差，所有像样的图书馆只使用Python 2.工作如果必须在Python网络刮，使用Python 2

虽然Beautiful Soup经常被推荐的（在堆栈溢出有关的网络使用Python拼抢每一个问题表明它），它不是对于Python 3来说它和Python 2一样好;我甚至无法安装它，因为安装代码仍然是Python 2.

至于适用于Python 3的足够且易于安装的解决方案，您可以尝试the library's HTML parser，尽管PythonBand3自带了相当简陋的准系统。

来源

2010-06-29 22:13:17

任何想法如何使用内置的HTML解析器来获取标签的内容？ – Teifion 2010-11-09 17:18:58

美丽的汤有很好的写在它的当前状态。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork 2011-07-04 23:55:19

BeautifulSoup，以其3.1.0.1版（2009年1月），还与Python 3.x的工作

我没有在Py3k下的BeautifulSoup的直接经验（虽然这很快会改变......）。然而，我刚刚读到Version 3.1.0 of Beautiful Soup does significantly worse on real-world HTML than its previous versions，所以我可以尝试等待（如果可能的话）。

来源

2010-03-24 03:02:42 mjv

如果您的HTML格式正确，您有很多选项，例如sax和dom。如果格式不正确，则需要容错解析器，如Beautiful soup,element tidy或lxml的HTML解析器。没有解析器是完美的，当呈现各种破碎的HTML，有时我必须尝试多一个。 Lxml和Elementree使用比Beautiful soup更多标准的大多数兼容API。

在我看来，lxml是用于处理xml文档的最佳模块，但Python中包含的ElementTree仍然非常不错。在过去，我使用Beautiful soup将HTML转换为xml，并构造了用于处理数据的ElementTree。

来源

2010-03-24 03:23:11 mikerobi

我目前使用的是lxml，在Windows上我使用了http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml的安装二进制文件。

import lxml.html 
page = lxml.html.fromstring(...) 
title = page.xpath('//head/title/text()')[0]

来源

2011-11-17 19:54:03

我知道这是这样晚了，但以供将来参考，美丽的汤4.3.2可截至10月2013年

http://www.crummy.com/software/BeautifulSoup/bs4/download/

它与Python 3

兼容

来源

2013-12-10 09:07:43

用Python 3解析HTML的最佳库和例子？

回答

相关问题