2011-04-21 155 views
0

任何人都可以帮助我从html标签中将文本解压为纯文本吗?从xml解析的html标签之间提取文本

我已经解析了一个XML并获得一些输出作为身体有html标签现在我想删除标签并使用文本。

在此先感谢!!!!

回答

2

您可以使用HTML解析器像JSoup

例如 HTML是

<div style="height:240px;"><br>test: example<br>test1:example1</div> 

可以使用

Document document = Jsoup.parse(html); 
Element div = document.select("div[style=height:240px;]").first(); 
div.html(); 
+1

谢谢老板做 – ReNa 2011-04-22 04:12:48

+0

欢迎您:) – 2011-04-22 06:01:09

0

尝试HTML Parser得到的HTML。

如果HTML转义,即&lt;而不是<,则可能必须先解码。

0

考虑你的要求,你可以尝试Jericho HTML Parser

TextExtractor类请看:

Using the default settings, the source segment: "<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>" produces the text "One Two Three"

0

如果你想要做的是从一个字符串中删除HTML标记,你可以这样做:

String output = input.replaceAll("(?s)\\<.*?\\>", " "); 
相关问题