地带的一切，但是从HTML

我们的CMS允许用户使用HTML编辑器来输入文字文本，所以阅读文本到网页时，我可以文字是这样的：地带的一切，但是从HTML

&#xD;&#xA;  <p>&#xD;&#xA;  <strong>text text. more 
text</strong>&#xD;&#xA;  <a href="http://blabla>blabla</a> even more text...

我怎样可以去除一切，但文本包括，和。和类似的字符？

来源

2009-09-08 Karsten

假设这是HTML（不是XHTML），我会用HTML Agility Pack分析它，并获得InnerText：

static void Main() 
{ 
    HtmlDocument doc = new HtmlDocument(); 
    doc.LoadHtml(@"&#xD;&#xA;  <p>&#xD;&#xA;  <strong>text text. more text</strong>&#xD;&#xA;  <a href=""http://blabla>blabla</a> even more text..."); 
    string s = doc.DocumentNode.InnerText; 
    // s is: &#xD;&#xA;  &#xD;&#xA;  text text. more text&#xD;&#xA;  
}

来源

2009-09-08 13:36:27

-1

使用XML：

rootNode.innerText

但是你的输入必须要作为一个标准化的XML前检查。

来源

2009-09-08 13:24:32

您可以将它加载到XDocument/XElement对象中并获取Value属性，它实际上会返回该元素的内部文本。您必须通过使用深度枚举xml/html树（并在每个内部文本节点之间添加空格）来为每个元素执行此操作。

hello将让你“你好”
hellohello将让你“hellohello”使用rootNode.innerText - 这就是为什么你必须使用它的每一个节点，以获得“你好你好”。

来源

2009-09-08 13:31:07

使用

变种一个新=正则表达式（ “< [^>] + />？”）; var v = a.Replace（“我的脏文本在这里”，“”）;

v现在将包含没有属性和标签的文本。

来源

2009-09-08 13:31:50

我一直在使用正则表达式从网页过滤HTML只检索文本本身如下：

Regex.Replace(requestHtml, "<.*?>", string.Empty)

来源

2009-09-21 13:27:59 armannvg

地带的一切，但是从HTML

回答

相关问题