UTF-16是一种可变长度编码;码点用一个或两个16位代码单元(即2或4个字节,'a'为2个字节)编码。
UTF-32是固定宽度,每个代码点恰好为32位(即4个字节)。
你看到的长度看起来似乎膨胀了,因为当你像那样天真地使用len时(包括\ xff \ xfe thing是BOM),你会看到BOM。
>>> 'a'.encode('utf-16')
b'\xff\xfea\x00'
BOM.....a....
>>> 'aaa'.encode('utf-16')
b'\xff\xfea\x00a\x00a\x00'
BOM.....a....a....a....
如果你看一下使用bitstring
模块的原始比特它可能对你更清楚:
>>> # pip install bitstring
>>> from bitstring import Bits
>>> Bits(bytes='a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> Bits(bytes='aaa'.encode('utf-32')).bin
'11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
BOM.............................a...............................a...............................a...............................
UTF-8又是宽度可变,用8月1日至4日位块,匹配前128个字符的ASCII,其中包括'a'。 unicode标准允许使用UTF-8的BOM,但既不要求也不建议使用(它在那里没有意义),这就是为什么你在第一个例子中没有看到任何BOM。
来源
2017-08-09 01:17:52
wim