我不能得到关于Python如何在文件处理Unicode一握...Python中的Unicode文件中
f = open('test.txt', 'w')
f.write('abc')
f.close()
这给了3个字节的文件。
f = open('test.txt', 'w')
f.write('abcé')
f.close()
这给了5个字节的文件(é占据两个字节,但Python是怎样知道它必须有读2个字节?)
f = open('test.txt', 'w')
f.write('abcそ') # a Japanese character
f.close()
这给出了6个字节的文件(そ需要三个字节,但Python如何知道它必须读取3个字节?)
所以我可以理解,Unicode需要两个字节,但它有时是1或2或3字节,我看不见怎么运行的。
http://en.wikipedia.org/wiki/Variable-length_code ,http://en.wikipedia.org/wiki/UTF-8 – 2012-07-12 19:56:04
我不知道为什么这很重要,但这不是一个中国字。 – quantum 2012-07-12 19:56:12
oops ...你说得对,它是日文,改变了评论... – Paul 2012-07-12 19:59:37