我想加载一个文件保存为UTF-8到包含14种不同语言的Python(ver2.6.6)。我正在使用python codecs
模块来解码txt文件。Python编解码器模块
import codecs
f = open('C:/temp/list_test.txt', 'r')
for lines in f:
line=filter_str(lines.decode("utf-8")
这一切都很好。我解析整个文件,然后想要导出12个不同的语言文件。我不明白的问题是以下
我用输出下面的代码:
malangout = codecs.open("C:/temp/'polish.txt",'w','utf-8','surrogateescape')
for item in lang_dic['English']:
temp = lang_dic[lang1][item]
malangout.write(temp + '\n')
malangout.close()
例子:
- 语言:波兰
- 预期输出:Dziennikzakłóceń
- 实际产量:Dziennikzak,óceƒ
的字符串存储为是:
u'Dziennik zak\u201a\xf3ce\u0192'
我试图从python文档(7.8编解码器)许多编码。任何信息在这一点上都会有所帮助。
您在评论中说:“我将ascii文件保存为记事本中的UTF-8”:ascii是utf8的子集,不会导致问题。你的意思是“ANSI”而不是“ascii”? '导入区域设置的结果是什么?在你的系统上打印(locale.getpreferredencoding())? –