2017-12-27 283 views
0

我已安装bs4。你如何从文本文件中删除HTML标签?简而言之,我有一个脚本,将ESRI元数据项目写入该元数据HTML页面的文本文件中,对于这些项目中的一些项目,HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码?它看起来马虎。从文本文件中删除BeautifulSoup标签

此附件的说明项具有HTML:Textfile

+0

预期输出是什么,到目前为止您尝试过了什么? – johnII

+1

尝试'soup.text' –

+0

你想提取没有html标签的数据吗? –

回答

2

使用w3lib library对于这一点,没有必要的bs4

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text) 
0

@eLRuLL谢谢,这伟大工程,以去除标签。然而,我将使用这个脚本的这些元数据描述中的一些非常冗长,并且将该文本作为变量输入似乎是一个不好的主意。出于这个原因,我试过这个:

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract) 

脚本运行但HTML仍然存在。

+0

当然,解决你的问题,很高兴我帮助。 – eLRuLL