从文本文件中删除BeautifulSoup标签

我已安装bs4。你如何从文本文件中删除HTML标签？简而言之，我有一个脚本，将ESRI元数据项目写入该元数据HTML页面的文本文件中，对于这些项目中的一些项目，HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码？它看起来马虎。从文本文件中删除BeautifulSoup标签

此附件的说明项具有HTML：Textfile

来源

2017-12-27 Pfalbaum

预期输出是什么，到目前为止您尝试过了什么？ – johnII

尝试'soup.text' –

你想提取没有html标签的数据吗？ –

使用w3lib library对于这一点，没有必要的bs4：

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text)

来源

2017-12-27 18:18:18 eLRuLL

@eLRuLL谢谢，这伟大工程，以去除标签。然而，我将使用这个脚本的这些元数据描述中的一些非常冗长，并且将该文本作为变量输入似乎是一个不好的主意。出于这个原因，我试过这个：

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract)

脚本运行但HTML仍然存在。

来源

2017-12-27 20:25:39 Pfalbaum

当然，解决你的问题，很高兴我帮助。 – eLRuLL

从文本文件中删除BeautifulSoup标签

回答

相关问题