这里是我想解析的html。从非唯一表上的html检索字符串
<TD>Serial Number</TD><TD>AB12345678</TD>
我正在尝试使用正则表达式来解析数据。我听说过BeautifulSoup,但在页面上有大约50个这样的项目都使用相同的表格参数,并且它们都没有ID号码。他们对唯一标识符最接近的是我需要的数据之前的单元格中的数据。
serialNumber = re.search("Serial Number</td><td>\n(.*?)</td>", source)
源代码只是使用urllib抓取的页面的源代码。在第二个和序列号之间的html中有新的行,但我不确定这是否重要。
正则表达式是传统的不明智的解决方案来解析HTML。你真的应该使用BeautifulSoup,只要(条件),下降到表中并获取数据。否则,进入下一张桌子。你可以尝试[scrapy](http://scrapy.org/)并使用它来编写一个蜘蛛,它通常包含类似于正则表达式的东西 – inspectorG4dget 2011-05-16 19:27:00
强制性链接:http://stackoverflow.com/questions/1732348/regex- match-open-tags-except-xhtml-self-contained-tags – Amadan 2011-05-16 19:32:21