我有一个文件,我需要解析。解析是逐步构建的,因此在每次迭代中,表达式都变得更具特定性。re.compile(模式,文件)调用导致系统崩溃
其超载系统中的代码段看起来大致是这样的:
for item in ret:
pat = r'a\sstyle=".+class="VEAPI_Pushpin"\sid="msftve(.+?)".+>%s<'%item[1]
r=re.compile(pat, re.DOTALL)
match = r.findall(f)
该文件是一个相当大的HTML文件(从Bing地图解析),以及每个答案必须其确切的ID相符。
在应用此更改之前,工作流程非常好。有什么我可以做,以避免这种情况?或者优化代码?
哈!这就是使用正则表达式解析HTML所得到的结果。 http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – 2011-05-18 21:20:44
首先,不要使用正则表达式来解析HTML!其次,什么样的崩溃? Segfault或Python异常?任何有用的信息? – Santa 2011-05-18 21:25:41
Python环境只是停止响应,尽管键盘中断“唤醒它”@santa – 242Eld 2011-05-19 08:16:09