我试图从包含单个产品代码的网站上获取产品列表。 的产品代码是5位数字代码,这些元素其复杂程度从用正则表达式重复捕获组
<p>Part Number: 67001</p>
<p>Part Number: 50545 – 450g Cartridge 50525 - 2.5kg Tub 50520 - 20kg Pail 50555 - 55kg Drum 50575 *Indent - 175kg Drum</p>
不幸的是,5种模式在整个网页,所以我不能只用/\d{5}/
后我一个正则表达式,只提取零件号元素中的5位数字,而不是从网页的其余部分提取。
喜欢的东西:/\<p\>Part\s*Number\:\s*((\d{5}) repeat this capture group n times)\<\/p\>/
我知道我可以打破的页面向下阶段,并陆续将一个正则表达式做到这一点。例如
第一阶段/\<p\>Part\s*Number\:\s*.*?\<\/p\>/
第二阶段/\d{5}/
但有可能做到这一点在一个正则表达式模式,如果是的话怎么办?
没有,这正则表达式后才返回第一个代码{
型号:}我希望所有的代码之前结尾{
} – Kevin如果它是页面上唯一的5位数的代码,那么你可以使用'(\ d {5})'。 –
不幸的是,5位数字模式遍及整个网页,所以我不能只用(\ d {5}) – Kevin