什么是Python中的最佳方式来提取HTML页面的文本以同样的方式,当你复制到浏览器不-糊?
Q
提取文本
-2
A
回答
4
2
questionmonkut引用没有给出任何Python解决方案的确切问题。虽然BeautifulSoup和lxml都可以用来解析html,但从那里到文本仍然有一大步,这些文字近似嵌入在html中的格式。为了做到这一点,我使用了非python解决方案(我已经在博客中介绍过,但会拒绝在这里链接 - 不确定SO礼节)。如果您使用* nix系统,则可以安装德国的this html2text package。它可以很容易地安装在MacOS上,使用Homebrew($ brew install html2text
)或Macports($ sudo port install html2text
)以及其他* nix系统通过软件包管理器轻松安装。它有许多有用的选项,我用它是这样的:
html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html
您还可以安装一个基于文本的浏览器(例如w3m),并使用以下命令用它制作格式的文本从HTML直插式的语法: w3m filename.html -dump > file.txt
你可以,当然,从Python的使用subprocess模块或流行envoy包装为subprocess
访问这些解决方案。即使经过这么多的努力,您可能会发现某些重要信息(例如<u>
标签)没有以您喜欢的方式处理,但那些是我找到的最佳当前选项。
相关问题
- 1. 提取文本
- 2. 提取文本
- 3. 提取文本
- 4. 提取文本
- 5. 提取文本()
- 6. 提取文本
- 7. 提取文本
- 8. 提取文本
- 9. Jsoup - 提取文本
- 10. 提取PDF文本
- 11. pdf文本提取
- 12. 文本提取PHP
- 13. XML文本提取
- 14. Perl提取文本
- 15. Xquery提取文本
- 16. 提取文本串
- 17. 提取文本文件
- 18. 从HTML中提取文本
- 19. 从html中提取文本?
- 20. 提取文本(不DOCX)
- 21. 提取文本使用jQuery
- 22. NLP&ML文本提取
- 23. 只提取类文本
- 24. 提取文本 - 的JavaScript
- 25. 提取特定文本
- 26. 文本提取 - 逐行
- 27. CSV文本提取Beautifulsoup
- 28. 提取文本多次
- 29. C#Regrex提取HTML文本
- 30. 提取文本使用awk
可能重复。我推荐这个答案:http://stackoverflow.com/a/3987802/117092 – luc 2012-01-13 06:26:33