我在文件夹中有很多html格式文件。我需要检查它们是否包含这个标签:Python正则表达式提取标签内的html文件内容
<strong>QQ</strong>
而且只需要提取“QQ”及其内容。 我首先阅读其中一个要测试的文件,但看起来我的正则表达式不匹配。 如果我取代fo_read作为标签
<strong>QQ</strong>
它将虽然相匹配。
fo = open('4251-fu.html', "r")
fo_read = fo.read()
m = re.search('<strong>(QQ)</strong>', fo_read)
if m:
print 'Match found: ', m.group(1)
else:
print 'No match'
fo.close()
你有使用HTML解析器,而不是考虑? [使用正则表达式来解析HTML是可怕的](https://stackoverflow.com/a/1732454/5067311)。 –
我有beautifulsoup,但在html中有几个强大的标签。它如何工作? –
如果您有多个标签,而不是使用HTML解析器的另一个原因。我不熟悉这个主题,但是BS4文档或[标准html模块](https://docs.python.org/3/library/html.parser.html)(oops:[python2 for you] (https://docs.python.org/2/library/htmlparser.html))文档和一些有针对性的谷歌搜索应该是有帮助的。 –