如何在不知道编码的情况下读取编码头？

如果我正在阅读HTML文件的XML，那么我是否必须阅读标记以告诉我可以读取文件的编码？该标签是不是以与文件相同的方式进行编码？我很好奇你如何阅读该标签而不知道编码。我意识到这是解决问题。我只是好奇它是如何完成的。如何在不知道编码的情况下读取编码头？

更新1

我不明白，在UTF-16不会每个字符占用2个字节，而不是一个，而且比ASCII不同？例如，UTF-16（U + 0045）中的字符E是0xfeff0045。那是0xfeff，然后是0x0045，但是一些编码会改变那个末端。你是否必须通过检查0xfeff并意识到不能是ASCII或什么？

来源

2009-10-20 Anthony D

这里是W3C不得不说一下吧：

的XML编码声明在实体中以内部标签，指示哪些字符编码是使用。然而，在一个XML处理器可以读取内部标签之前，显然必须知道哪些字符正在使用 - 哪些是内部标签试图指示的内容。在一般情况下，这是一个无望的情况。这不是在XML完全无望，但是，因为XML 以两种方式限制了一般的情况：每个实现被假定为仅支持有限的一组字符编码，并且所述XML编码声明在位置限制和内容，以便使其可行，以自动检测编码中正在使用的每个实体中的正常情况。

http://www.w3.org/TR/2000/REC-xml-20001006#sec-guessing

来源

2009-10-20 15:46:57

+1换句话说，处理器只是尝试所有的编码，直到XML编码声明出现在输出中 – 2009-10-20 16:05:30