2011-05-19 48 views
2

我想要一个正则表达式来从字符串中删除html标记和&等等。我得到的正则表达式是移除html标签,但不提及其他人。我使用的.Net 4string删除htmls

感谢

CODE:

 String result = Regex.Replace(blogText, @"<[^>]*>", String.Empty); 
+1

继续之前,看看这里:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – Zruty 2011-05-19 15:58:53

+2

呃哦...... ... – 2011-05-19 15:59:08

+0

正则表达式和HTML从来都不是一个好的组合。看看@ http://stackoverflow.com/questions/5496704/strip-html-and-css-in-c – 2011-05-19 16:00:07

回答

0

要建立在您已创建的内容上,您可以将其更改为以下内容:

String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty); 

这意味着...

    为您定义
  1. 要么匹配标签...
  2. ...或匹配后跟一个&至少一个字字符\w - 多达可能。

这两个都不能在所有讨厌的情况下工作,但通常情况下它确实如此。