提取文本

-2

可能重复：
Extracting text from HTML file using Python 提取文本

什么是Python中的最佳方式来提取HTML页面的文本以同样的方式，当你复制到浏览器不-糊？

来源

2012-01-13 Mark Vital

可能重复。我推荐这个答案：http://stackoverflow.com/a/3987802/117092 – luc 2012-01-13 06:26:33

BeautifulSoup是阅读和解析HTML页面的流行选项。

来源

2012-01-13 02:19:46 Makoto

党。什么容易的点，@Makoto！ '：D' – Droogans 2012-01-13 02:48:18

question monkut引用没有给出任何Python解决方案的确切问题。虽然BeautifulSoup和lxml都可以用来解析html，但从那里到文本仍然有一大步，这些文字近似嵌入在html中的格式。为了做到这一点，我使用了非python解决方案（我已经在博客中介绍过，但会拒绝在这里链接 - 不确定SO礼节）。如果您使用* nix系统，则可以安装德国的this html2text package。它可以很容易地安装在MacOS上，使用Homebrew（$ brew install html2text）或Macports（$ sudo port install html2text）以及其他* nix系统通过软件包管理器轻松安装。它有许多有用的选项，我用它是这样的：

html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html

您还可以安装一个基于文本的浏览器（例如w3m），并使用以下命令用它制作格式的文本从HTML直插式的语法： w3m filename.html -dump > file.txt

你可以，当然，从Python的使用subprocess模块或流行envoy包装为subprocess访问这些解决方案。即使经过这么多的努力，您可能会发现某些重要信息（例如<u>标签）没有以您喜欢的方式处理，但那些是我找到的最佳当前选项。

来源

2012-01-13 04:46:52 Ari

回答

相关问题