我想解析HTML,获取文本,并返回每个单词(或潜在的每个文本片段)附带的标签列表。 例如,给定这个HTML:Python用标签列表解析HTML返回单词
<em>Blah blah blah</em> blah again <i>and then again</i>
这将返回类似:
(("Blah", "em"),
("blah", "em"),
("blah", "em"),
("blah", ""),
("again", ""),
("and", "i"),
("then", "i"),
("again", "i"))
或:
(("Blah blah blah", "em"),
("blah again", ""),
("and then again", "i"))
是否有工具或一个简单的方法来做到这一点?
感谢
我不确定这会有所帮助。我想将这些单词与造型标签一起提取出来。 –