2012-11-01 52 views
2

在html文件中,我需要使用autohotkey和正则表达式来只绘制文本“XX(1119601.1)”。由于结束标记仅在几行换行后出现,我无法获取标记之间的文本。Autohotkey正则表达式去除多行中的html标记

 <dd class="call_number"> 
     <!-- holdings allowed --> 
    XX(1119601.1) 

     </dd> 

对此的任何帮助将不胜感激。

+0

不要试图用正则表达式解析HTML – Bergi

回答

0
txt = 
(Ltrim 
    <dd class="call_number"> 
     <!-- holdings allowed --> 
    XX(1119601.1) 
    </dd> 
) 

RegexMatch(txt, "<dd .+?>(.*)</dd>", m) 
msgbox % RegexReplace(m1, "<!.+>") 

此代码首先匹配标签内的所有内容(你可以把它多一点具体的,像只在标签匹配字符串),然后替换HTML注释。

您也可以使用RegexReplace删除不需要的换行符。

编辑: 更改RegexMatch不自动删除换行符。