2013-07-03 30 views
0

DOC文本我有这样如何JSoup与编码

<div>&gt; something &lt;</div> 

我需要的div元素的文本就像一个节点此

&gt; something &lt; 

我从得到的.text()法,输出是

> something < 

在BeautifulSoup,它将返回&gt; something &lt;不编码输出。

如何从JSoup获取未转换的文本?

回答

0
doc = Jsoup.connect(url).get(); 
doc.outputSettings().escapeMode(Entities.EscapeMode.extended); 

OR

使用Apache Commons StringEscapeUtils.unescapeHtml4()此:

Unescapes a string containing entity escapes to a string containing the actual Unicode characters corresponding to the escapes. Supports HTML 4.0 entities. 
+0

感谢您的回答。从outputSettings如何获取文本?我无法弄清楚使用文档。 – Rajasankar

+0

你的意思是这样的:doc.body()。html()? – willome