我想使用正则表达式来解析网站解析使用正则表达式网站在Python
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(有很多的这些,我想以某种形式的标记化所有的)。问题是“一个href”实际上有两个空格,而不仅仅是一个(有一些是“href”,有一个空格,我不想检索),所以使用LXML已经证明是相当痛苦的,而我不想使用BeautifulSoup(出于其他原因)。有谁知道我会怎么做呢?
谢谢!
[RegEx match open tags not except XHTML self-contained tags]可能重复(http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – JBernardo 2013-02-15 02:45:44
没有这个不同。从href中挑出两个空间是困难的,而不是仅仅一个空间。对于它非常脆弱,我也很好,只要它确实符合我的要求,即提取出两个空格之间的href。 – user1922956 2013-02-15 03:13:43
从另一个问题阅读第一个答案 – JBernardo 2013-02-15 03:28:07