2014-12-05 28 views
0

我已经阅读了几个关于python如何处理unicode的SO问题和博客帖子,但我仍然有点困惑。我正在通过scrapy进行研究,并从网页上获得这个信息:u'Isla de Se\xf1orita'。它应该是u'Isla de Señorita'。我知道我可以做点像..Python Unicode:我可以找回我的?

>>> u"ñ" 
u'\xf1' 
>>> u"ñ".encode("utf-8") 
'\xc3\xb1' 

但是我应该怎么做呢?我可以从这些字节中取出u"ñ"吗?我只想要 - 这样我就可以将它保存到django模型中的一个字段中。谢谢。

+0

Python正试图在这里有所帮助,并产生ASCII友好的调试输出。 ñ是Unicode中的U + 00F1,因此Python会显示'\ xf1'来指示值,这种方式在复制并粘贴到无法处理任何内容但不支持ASCII的终端或编辑器时不会失效。 – 2014-12-05 20:58:08

回答

0

你的ñ仍然存在。它只是编码不同。看看这个动作在我的Python解释器:

>>> print '\xc3\xb1' 
ñ 

也许我不清楚你所说的什么“拿回来”?

+0

当我输入同一行代码时,我得到了'├''',但如果我打印ü'''',我就回到''为什么?但无论如何,我从来没有试过将它打印出来,所以我现在可以看到发生了什么。我认为我的错误可能与其他事情有关。 – pyramidface 2014-12-05 21:01:12

+0

@pyramidface:将UTF-8写入终端或控制台仅在终端或控制台实际配置为处理UTF-8时才有效。你的不是。看到我关闭你的帖子作为副本。 – 2014-12-05 21:03:28

+0

@MartijnPieters啊好吧,谢谢你清理。 – pyramidface 2014-12-05 21:05:34

相关问题