文本内容规范化为UTF-8,我们有一个CMS,其中有几千text/html的文件。事实证明,用户使用各种字符编码(utf-8,utf-8 w BOM,windows 1252,iso-8859-1)上传了文本/ html文件。如何用Java
当这些文件中读取和写入我们的CMS的框架迫使响应一个charset =上响应的内容类型属性的UTF-8。
因此,如果用户没有从“native”字符编码转换为UTF-8的正确字符转换,那么任何非UTF-8内容都会向用户显示具有错乱字符(?,黑色菱形等)的用户。此外,没有元数据附加到这些文件,表明字符集 - 据我所知,告诉他们是什么字符集的唯一方法是在文本渲染应用程序(Firefox,Notepadd ++等)看他们和“看“在内容上看看它是否”看起来“正确。
有谁知道如何自动/智能未知编码的文件转换为UTF-8?我读过这可以通过统计建模来完成,但那是我的头脑。
思考如何最好地处理这个问题?
感谢
相关问题:http://stackoverflow.com/questions/774075/character-encoding-detection-algorithm和http://stackoverflow.com/questions/499010/java-how-to-determine-the-correct- charset-encoding-of-a-stream – BalusC 2010-03-16 17:52:45