我在玩unix hexdump工具。我的输入文件是UTF-8编码,包含单个字符ñ
,它是十六进制UTF-8中的C3 B1
。hexdump混淆
hexdump test.txt
0000000 b1c3
0000002
咦?这显示B1 C3
- 与我预期的相反!有人可以解释吗?
为了得到所期望的输出我做的:
hexdump -C test.txt
00000000 c3 b1 |..|
00000002
我想我明白编码系统..
我在玩unix hexdump工具。我的输入文件是UTF-8编码,包含单个字符ñ
,它是十六进制UTF-8中的C3 B1
。hexdump混淆
hexdump test.txt
0000000 b1c3
0000002
咦?这显示B1 C3
- 与我预期的相反!有人可以解释吗?
为了得到所期望的输出我做的:
hexdump -C test.txt
00000000 c3 b1 |..|
00000002
我想我明白编码系统..
这是因为hexdump都默认使用16位字,你是一个小运行 - 印第安建筑。字节序列b1 c3
因此被解释为十六进制字c3b1
。 -C
选项强制hexdump使用字节而不是单词。
我发现了两个方法来避免:
hexdump -C file
或
od -tx1 < file
我认为这是愚蠢,hexdump都决定文件通常16位字小尾数。非常混乱的IMO。
http://en.wikipedia.org/wiki/Endianness – Konerak 2010-05-17 07:56:04