2011-02-17 58 views
2

字符串从除去从字符串任何HTML删除编码的HTML我现在有一个扩展方法。从使用RegEx

Regex.Replace(s, @"<(.|\n)*?>", string.Empty); 

也能正常工作整体上,然而,我偶尔会得到通过串它们内部有两个标准的HTML标记,用编码标记沿(我没有源数据的控制,所以不能在入境点),如正确的事情

&lt;p&gt;<p>Sample text</p>&lt;/p&gt; 

我需要,将删除两个编码和非编码的HTML(无论是段落标签,锚标签,格式化标签等)从字符串的表达式。

+0

类似于@“(<| <)(。| \ n)*?(> >)”我认为 – 2011-02-17 11:11:26

+0

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except -xhtml自包含的标签/ 1732454#1732454 – digEmAll 2011-02-17 11:12:44

回答

5

我认为你可以做,在两道次与你相同的扩展方法。

首先替换通常的未编码标签,然后Decode返回的字符串,并再次执行。简单