Python re.sub使用非贪婪模式（。*？）结束字符串（$）它变得贪婪！

代码：

str = '<br><br />A<br />B' 
print(re.sub(r'<br.*?>\w$', '', str))

预计返回 A，但它返回一个空字符串''！

有什么建议吗？

2010-11-25 Jet Guo

请不要使用`str`作为变量名称。 – 2010-11-25 06:03:10

贪婪从左到右工作，但没有其他方式。它基本上意味着“不匹配，除非你不匹配”。以下是发生了什么事情：

幸运的是，有一个简单的解决方案：通过更换<br[^>]*>\w$你不让你的标签之外匹配，所以它应该取代最后一次出现。
严格来说，这对HTML并不适用，因为标签属性可以包含>个字符，但我认为这只是一个示例。

2010-11-25 05:57:40 Kobi

非贪心不会像以后那样开始。它与第一个<br相匹配，并且将非贪婪地匹配其余部分，因为您指定$，实际上需要转到字符串的末尾。

为了使它工作，你想要的方式，使用

/<br[^<]*?>\w$/

但通常不建议使用正则表达式来解析HTML，一些属性值可以在它<或>。

2010-11-25 05:56:51

回答