我认为我主宰了Python 2中的所有Unicode东西,但似乎有些东西我不明白。我从的HTML去我python脚本该用户输入:如何将包含unicode字符的字符串转换为unicode?
a = "m\xe9dico"
我想这是médico
(也就是医生)。所以,来转换为Unicode我做:
a.decode("utf-8")
或者:
unicode(a, "utf-8")
但这是抛出:
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 1: ordinal not in range(128)
如何才能做到这一点?
这已经是unicode。 utf-8版本将是'm \ xc3 \ xa9dico'。 –
@DanielRoseman:在Python 3中,它将是一个unicode文字,但这是Python 2,因此它是8位数据,因此最好是Latin-1。 Ofc这是一个Unicode兼容的编码,但我认为误导只是称之为“unicode”。 –