任何人都可以帮助我从html标签中将文本解压为纯文本吗?从xml解析的html标签之间提取文本
我已经解析了一个XML并获得一些输出作为身体有html标签现在我想删除标签并使用文本。
在此先感谢!!!!
任何人都可以帮助我从html标签中将文本解压为纯文本吗?从xml解析的html标签之间提取文本
我已经解析了一个XML并获得一些输出作为身体有html标签现在我想删除标签并使用文本。
在此先感谢!!!!
您可以使用HTML解析器像JSoup
例如 HTML是
<div style="height:240px;"><br>test: example<br>test1:example1</div>
可以使用
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
div.html();
尝试HTML Parser得到的HTML。
如果HTML转义,即<
而不是<
,则可能必须先解码。
考虑你的要求,你可以尝试Jericho HTML Parser
在TextExtractor类请看:
Using the default settings, the source segment: "<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>" produces the text "One Two Three"
。
如果你想要做的是从一个字符串中删除HTML标记,你可以这样做:
String output = input.replaceAll("(?s)\\<.*?\\>", " ");
谢谢老板做 – ReNa 2011-04-22 04:12:48
欢迎您:) – 2011-04-22 06:01:09