在Python中删除HTML块

我想知道是否有一个库或Python中的某些方法从HTML文档中提取元素。例如：在Python中删除HTML块

我有这个文件：

<html> 
 
     <head> 
 
      ... 
 
     </head> 
 
     <body> 
 
      <div> 
 
      ... 
 
      </div> 
 
     </body> 
 
</html>

我想从文件块内容一起删除<div></div>标签块，然后它会是这样的：

<html> 
 
    <head> 
 
    ... 
 
    </head> 
 
    <body> 
 
    </body> 
 
</html>

来源

2016-08-02 JefersonM

你想只删除''

标签或这两个标签和内容的内容？ –

我想删除它们之间的标签和内容。但是只有内容是好的:) – JefersonM

你可以尝试读取html文件作为xml并删除'div'节点。 https://wiki.python.org/moin/PythonXml建议使用* ElementTree * –

你并不需要为这个图书馆。只需使用内置的字符串方法。

def removeOneTag(text, tag): 
    return text[:text.find("<"+tag+">")] + text[text.find("</"+tag+">") + len(tag)+3:]

这将删除第一次打开和关闭标记之间的所有内容。所以你在输入例会是这样的......

x = """<html> 
    <head> 
     ... 
    </head> 
    <body> 
     <div> 
     ... 
     </div> 
    </body> 
</html>""" 
print(removeOneTag(x, "div"))

然后，如果你想删除所有的标签......

while(tag in x): 
    x = removeOneTag(x, tag)

来源

2016-08-02 15:30:40 Wso

很酷。我真的不需要一个库。谢谢！ – JefersonM

欢迎您！很高兴我能够帮助！ – Wso

尝试使用HTML解析器（如BeautifulSoup）选择<div> DOM元素。然后你可以使用正则表达式或类似的方法删除它。

来源

2016-08-02 15:15:40 Frangipanes

我个人觉得你不需要图书馆或其他东西。

你可以简单地写一个python脚本读取HTML文件和一个正则表达式匹配所需的HTML标签，然后做任何你想用它（在你的情况下删除）

虽然，存在库对于相同的。

请参见官方文档 - >https://docs.python.org/2/library/htmlparser.html

也看到这 - >Extracting text from HTML file using Python

来源

2016-08-02 15:16:30

在Python中删除HTML块

回答

相关问题