2012-01-13 94 views

回答

4

BeautifulSoup是阅读和解析HTML页面的流行选项。

+0

党。什么容易的点,@Makoto! ':D' – Droogans 2012-01-13 02:48:18

2

questionmonkut引用没有给出任何Python解决方案的确切问题。虽然BeautifulSoup和lxml都可以用来解析html,但从那里到文本仍然有一大步,这些文字近似嵌入在html中的格式。为了做到这一点,我使用了非python解决方案(我已经在博客中介绍过,但会拒绝在这里链接 - 不确定SO礼节)。如果您使用* nix系统,则可以安装德国的this html2text package。它可以很容易地安装在MacOS上,使用Homebrew($ brew install html2text)或Macports($ sudo port install html2text)以及其他* nix系统通过软件包管理器轻松安装。它有许多有用的选项,我用它是这样的:

html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html

您还可以安装一个基于文本的浏览器(例如w3m),并使用以下命令用它制作格式的文本从HTML直插式的语法: w3m filename.html -dump > file.txt

你可以,当然,从Python的使用subprocess模块或流行envoy包装为subprocess访问这些解决方案。即使经过这么多的努力,您可能会发现某些重要信息(例如<u>标签)没有以您喜欢的方式处理,但那些是我找到的最佳当前选项。