如果我正在阅读HTML文件的XML,那么我是否必须阅读标记以告诉我可以读取文件的编码?该标签是不是以与文件相同的方式进行编码?我很好奇你如何阅读该标签而不知道编码。我意识到这是解决问题。我只是好奇它是如何完成的。如何在不知道编码的情况下读取编码头?
更新1
我不明白,在UTF-16不会每个字符占用2个字节,而不是一个,而且比ASCII不同?例如,UTF-16(U + 0045)中的字符E是0xfeff0045。那是0xfeff,然后是0x0045,但是一些编码会改变那个末端。你是否必须通过检查0xfeff并意识到不能是ASCII或什么?
+1换句话说,处理器只是尝试所有的编码,直到XML编码声明出现在输出中 – 2009-10-20 16:05:30