我使用下面的代码获取我的resut从RSS提要:正则表达式从字符串中删除html标记在Python
try:
desc = item.xpath('description')[0].text
if date is not None:
desc =date +"\n"+"\n"+desc
except:
desc = None
但有时说明包含RSS提要如下里面的html标签:
这是samle文本
< IMG SRC = “HTTP:// IMAGEURL” ALT = “”/>
得到控制而e显示内容我不希望任何HTML标签显示在页面上。是否有任何正则表达式来删除HTML标记。
我认为这将是适当的! http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags。 –
@Jeroen:不,这不合适。这很傻。你没有读过这个问题吗? **他已经在使用xpath了!!! **你们的人们是否会裁员并利用你的大脑进行改变? – tchrist
@tchrist:我可能误解了一些东西,但目前在我看来,你并没有真正阅读过他的问题。他正在使用xpath,对,但是他评估后得到的是HTML。除此之外:不需要不友好,兄弟。 – naeg