0
在浏览器中打开html文件,将文本复制并粘贴到word文档中。 将整个文本粘贴在关联的格式和间距中。如何使用美丽的汤格式化阅读html文本
如何在python中做同样的事情。
soup.get_text()会读取所有文本,但格式化会进行折腾。
我试图读取整个html。 但是,复杂的表格存在于html中, 只读显示的文本具有挑战性。
在浏览器中打开html文件,将文本复制并粘贴到word文档中。 将整个文本粘贴在关联的格式和间距中。如何使用美丽的汤格式化阅读html文本
如何在python中做同样的事情。
soup.get_text()会读取所有文本,但格式化会进行折腾。
我试图读取整个html。 但是,复杂的表格存在于html中, 只读显示的文本具有挑战性。
soup.get_text()提取文件的原始文本,不用于格式化的HTML标签和CSS样式(如h1
,p
,strong
...)
你必须明确地提取你insterested块
对于像汤:
html = "<h1>Title</h1><p>Text</p>"
你可以得到标题和段落有:
for tag in soup.find_all(['h1', 'p']):
print tag
输出:
<h1>Title</h1>
<p>Text</p>
<p>Other text</p>