我试图解析从以下网页标题:http://kid37.blogger.de/stories/1670573/Unicode标题,问号的Unicode问题? 65533;
当我使用apache.commons.lang StringEscapeUtils.escapeHTML方法标题元素,我得到以下
Das hermetische Caf�: Rock & Wrestling 2010
然而,当我在utf-8编码的网页上显示它只是显示一个问号。
使用下面的代码:
String title = StringEscapeUtils.escapeHtml(myTitle);
如果我通过这个网站运行标题:http://tools.devshed.com/?option=com_mechtools&tool=27我得到以下输出这似乎是正确的
标题:
<title>Das hermetische Café: Rock & Wrestling 2010</title>
变成(其中我期待的escapeHtml方法):
<title>Das hermetische Café: Rock & Wrestling 2010</title>
有什么想法?谢谢
你是正确的我调整到iso-8859-1,它正确处理。非常感激。 – James 2010-08-20 00:37:16