整个HTML给定一个HTML输入取计算的文本样式,而无需渲染在python
html='''This is <b>Bold</b> or <strong>Also Bold</strong> or even <font style="text-weight: bold">Style Bold</font>'''
我想仅过滤出大胆话
注意,这个例子是简化,我的真实使用情况下,我有几百万的文件要处理,有更多的结构和我不关心更多的HTML标签。
result=["Bold","Also Bold","Style Bold"]
的主要问题是,有几种方法来设置字体粗细(HTML标签/样式表)
而且我不知道是否有一个Python包,可以使只有我在乎的标签关于并观察结果,或者唯一的办法是编写一个解析器我自己。