0
我使用Readability Parser API从网页中提取内容。它是确定当网页是在拉丁字符集,但是当我提取西里尔文章,它具有下列结束:Python - 将unicode十六进制转换为字符串
<div>Ввоскресень</div>...etc
有趣的下面是一个网页的标题是正确提取在西里尔文,但不是内容。我的尝试是做到以下几点,因为它在这个SO answer建议:
content = unicodedata.normalize('NFKD', content).encode('ascii','ignore')
,但没有奏效。你能告诉我在保存到数据库之前是否有办法转换这个字符串?
请让我知道,如果我的问题的标题正确解释我需要什么。谢谢。
非常感谢你,我真的很感激它!我只会补充说h.parser.unescape已被弃用(Python 3.5),所以我使用了html.unescape()。 – nickbusted 2014-10-27 01:19:58