2016-03-08 99 views
0

在浏览器中打开html文件,将文本复制并粘贴到word文档中。 将整个文本粘贴在关联的格式和间距中。如何使用美丽的汤格式化阅读html文本

如何在python中做同样的事情。

soup.get_text()会读取所有文本,但格式化会进行折腾。

我试图读取整个html。 但是,复杂的表格存在于html中, 只读显示的文本具有挑战性。

回答

0

soup.get_text()提取文件的原始文本,不用于格式化的HTML标签和CSS样式(如h1pstrong ...)

你必须明确地提取你insterested块

对于像汤:

html = "<h1>Title</h1><p>Text</p>" 

你可以得到标题和段落有:

for tag in soup.find_all(['h1', 'p']): 
    print tag 

输出:

<h1>Title</h1> 
<p>Text</p> 
<p>Other text</p>