我是一个Python初学者,我有一个utf-8的问题。如何在Python中搜索和替换utf-8特殊字符?
我有一个utf-8字符串,我想用ASCII替换替换所有德语元音变音(在德语中,u变音符'ü'可能会被重写为'ue')。
U型变音符号有Unicode代码点252,所以我想这:
>>> str = unichr(252) + 'ber'
>>> print repr(str)
u'\xfcber'
>>> print repr(str).replace(unichr(252), 'ue')
u'\xfcber'
我希望最后一个字符串为u'ueber'
。
我最终想要做的就是用“UE”代替所有的u-变音符号的文件:
import sys
import codecs
f = codecs.open(sys.argv[1],encoding='utf-8')
for line in f:
print repr(line).replace(unichr(252), 'ue')
感谢您的帮助! (我正在使用Python 2.3。)
注意,Unicode标准还定义了精梳字符。因此ü也可以用unicode序列表示U + 0075 U + 0308 – elmuerte 2010-01-13 08:02:00