我有一个日本内容正在转换为MS帮助与某种工具。问题是,第三方工具不使用UTF-8编码,并建立垃圾字符的.xml:ISO编码与日本帧文件
<param name="Name" value="ÉAÉvÉäÉPÅÉVÉáÉìdžÇ'ÇËÇØÅǵÇÃ'ÇÃ']">
<param name="Name" value="Test File">
<param name="Local" value="applications.htm#Xau1044547">
我试图与编码玩弄,现在生产:
<param name="Name" value="ÉAÉvÉäÉPÅ">
<param name="Name" value="Test">
<param name="Local" value="applications.htm#Xau1044547">
但随着UTF-8编码(其他工具)和正确的输出应该是:
<param name="Name" value="アプリケーション">
<param name="Name" value="Small Business アプリケーションの起動 ">
<param name="Local" value="applications1.html#wp1044548">
是否有任何Java API我可以用它来解码和编码文件都具有正确的输出。我不确定该工具使用了什么,但我猜测它的“ISO-8859-1”。
谢谢。
我希望对文件做一些后期处理并获取正确的字符。这就是为什么我一直在尝试一些Java API来编码解码文件,迄今没有任何成功。 – Sumaiya 2011-04-12 13:41:36
@Sumaiya:后处理是解决编码问题的错误方法,因为修复被错误使用编码损坏的数据通常是不可能的。 – 2011-04-12 14:34:36