我从网页中提取了一个长字符串。使用:有两种可能性的子字符串正则表达式
x=re.findall(r"(?:l'article)\s\d+\w+.*;", xpath)
它提取以下2个字符串:
l'article 1382 du code civil ;
l'article 700 du code de procédure civile, les condamne à payer à la société Financière du cèdre la somme globale de 3 000 euros et rejette leurs demandes ;
然而,后者是有点长。我所需要的就是'''。有没有办法直接做到这一点?所以我的原始正则表达式命令查找';'或','的基础上,它遇到的第一个。
如果不是,我可以将正则表达式应用于列表,还是我需要为此编写一个循环?
所需取得的成果与列表:
l'article 1382 du code civil
l'article 700 du code de procédure civile
注意,我有这个适用于许多页面,并可能有更多的这些在一个页面中。手动或通过在列表中明确指定条目来做任何事情都是不可能的。
为什么不'[;,]'?使用're.findall'时,您的代码将只在您创建捕获组时才会返回';'或','。 –
@SebastianProske更新了代码,感谢您的输入。 – Neil
谢谢。我原本以为这是你以前提供的?(; |,)答案。但是这提供了一个列表;和,。 (对不起,我没有提供自己的尝试来解决这个问题)。谢谢你解释为什么发生这种情况@SebastianProske。 – Peter