我有一个美丽的汤的问题。 我尝试GED在一个字符串去掉html标签的,所以我有以下功能Python美丽的汤编码
def cleanHtml(self, html):
try:
soup = BeautifulSoup(html);
content = soup.findAll(text=True)
return ''.join(content);
except:
print html
当我现在做的事:
print {'title' : string_with_german_umlauts}
print {'title' : self.cleanHtml(string_with_german_umlauts)}
我碰到下面的输出字符串“莱德尔Gürtel” (意思是皮带)
{'title': 'Leder G\xc3\xbcrtel'}
{'title': u'Leder G\xfcrtel'}
正确的编码当然是\ xc3 \ xbc的变音符'ü'。 努力了整整一天得到这个工作后,我就放弃了,问;-)
我感谢所有帮助 THX
如果这可以帮助你:''G \ XC3 \ xbcrtel''是一个字节字符串,'u'G \ xfcrtel''是一个codepoint-string(“Unicode字符串”),相当于'u'G \ u00fcrtel''。 ''G \ xc3 \ xbcrtel'.decode('UTF-8')'返回'u'G \ u00fcrtel''。在进行调试时,请考虑在每一步中数据是以字节还是代码点的形式存在,以及在哪一个与另一个之间进行转换时,请考虑使用了哪种编码。 – wberry 2012-01-31 19:15:57