如何使用美丽的汤格式化阅读html文本

在浏览器中打开html文件，将文本复制并粘贴到word文档中。将整个文本粘贴在关联的格式和间距中。如何使用美丽的汤格式化阅读html文本

如何在python中做同样的事情。

soup.get_text（）会读取所有文本，但格式化会进行折腾。

我试图读取整个html。但是，复杂的表格存在于html中，只读显示的文本具有挑战性。

soup.get_text（）提取文件的原始文本，不用于格式化的HTML标签和CSS样式（如h1，p，strong ...）

你必须明确地提取你insterested块

对于像汤：

html = "<h1>Title</h1><p>Text</p>"

你可以得到标题和段落有：

for tag in soup.find_all(['h1', 'p']): 
    print tag

输出：

<h1>Title</h1> 
<p>Text</p> 
<p>Other text</p>

2016-03-08 10:30:58 SLePort

回答