2012-07-09 93 views
1

可能重复:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?Java的正则表达式转换

我有这种格式&#039

在这种情况下

编码的一些特殊字符的字符串数据编码是一个“符号,一个单引号。

因此,例如"the citizen&#039s home"应该显示为"the citizen's home",但它不会。

不幸的是,这是不被解释为这样的,我需要分析所有我的字符串的这些东西,并将其转换

第一:什么是所谓的该格式,这将帮助我找到一个转换方法

第二:你知道修理我的琴弦的方法吗?

+1

这种格式被称为:HTML实体(十进制)。 – 2012-07-09 18:58:17

回答

3

不需要重新发明轮子:Apache Commons Lang的StringEscapeUtils.unescapeHtml4(String)是你想要的。

将包含实体的字符串转义为包含 对应于转义的实际Unicode字符的字符串。支持 HTML 4.0实体。

例如,串"&lt;Fran&ccedil;ais&gt;"将成为 "<Français>"

如果一个实体是无法识别的,它被单独留在家中,并逐字 插入结果字符串。例如"&gt;&zzzz;x"将变成">&zzzz;x"