我正在与BS库进行HTML解析。我的任务是删除头标之间的所有内容。所以如果我有<head> A lot of Crap! </head>
那么结果应该是<head></head>
。这是它的代码BeautifulSoup Library的HTML解析问题
raw_html = "entire_web_document_as_string"
soup = BeautifulSoup(raw_html)
head = soup.head
head.unwrap()
print(head)
这工作正常。但我希望这些更改应该发生在包含整个html文档的raw_html
字符串中。如何在原始字符串中反映这些命令,而不仅仅是在head
字符串中?你能分享一个代码片段吗?
使用'tag.clear()'如果你想清楚它给我的错误标签 – 2014-12-27 20:52:28