我遇到了字符编码方面的一些问题,并且在波兰字符的这种特殊情况下。Python波兰字符编码问题
我需要用windows-1252等价物替换所有的非windows-1252字符。我有这个工作,直到我需要使用波兰人的角色。我该如何替换这些字符?
例如é
是一个windows-1252字符,必须保持这种方式。但ł
不是一个Windows-1252字符,必须用其等价物替换(或剥离,如果它没有等效)。
我尝试这样做:
import unicodedata
text = "Racławicka Rógé"
tmp = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore')
print(tmp.decode("utf-8"))
此打印:
Racawicka Roge
但现在ó
和é
都编码成o
和e
。
我该如何解决这个问题?
我在想什么......非常感谢!这正是我所需要的!想想很难! – Timo002 2014-12-04 15:35:54