如何将unicode转义序列URL转换为python unicode？

如果URL中有一些unicode字符，并且在客户端使用javascript（escape（text））转义，那么正确的方法是什么？例如，如果我的网址是：domain.com/?text=%u05D0%u05D9%u05DA%20%u05DE%u05DE%u05D9%u05E8%u05D9%u05DD%20%u05D0%u05EA%20%u05D4%u05D8%u05E7% u05E1％u05D8％20％u05D4％u05D6％u05D4如何将unicode转义序列URL转换为python unicode？

我想：文本= urllib.unquote（request.GET.get（ '文本'）），但我得到了完全相同的字符串返回（％u05D0％u05D9 ％u05DA％20％u05DE ...）

来源

2010-12-22 Shay

可能的复制[Ho w在python中取消一个urlencoded unicode字符串？]（http://stackoverflow.com/questions/300445/how-to-unquote-a-urlencoded-unicode-string-in-python）。简短的回答：'％uXXXX`编码方案是非标准的，你可能必须编写你自己的解码器。 – 2010-12-22 19:51:14

最终我所做的是从逃生（文本），改变了客户方urlEncodeComponent（文本），然后在使用Python端：

request.encoding = 'UTF-8' text = unicode（request.GET.get（'text'，None））

不知道这是做的最好的事情，但它在英语和希伯来语

来源

2010-12-22 20:13:30 Shay

是的，`encodeURIComponent（）`是URL编码字符串的正确函数; `escape（）`是一些怪异的自定义JavaScript特定编码，看起来有点像URL编码，但根本没有。 – bobince 2010-12-22 20:18:25

工作，因为你的％uxxxx不是Python标准，这是为\ uXXXX，你需要一个棘手的变换来代替“％”以“\”，像下面的（在我的Python壳测试）：

>>> import sys; reload(sys); sys.setdefaultencoding('utf8') 
<module 'sys' (built-in)> 
>>> text = '%u05D0%u05D9%u05DA%20%u05DE%u05DE%u05D9%u05E8%u05D9%u05DD%20%u05D0%u05EA%20%u05D4%u05D8%u05E7%u05E1%u05D8%20%u05D4%u05D6%u05D4' 
>>> text = text.replace('%', '\\') 
>>> text_u = text.decode('unicode-escape') 
>>> print text_u 
איךממיריםאתהטקסטהזה

转换成Unicode类型后，就可以把它转换为任何你喜欢的编码，如下：

>>> text_utf8 = text_u.encode('utf8') 
>>> text_utf8 
'\xd7\x90\xd7\x99\xd7\x9a\x10\xd7\x9e\xd7\x9e\xd7\x99\xd7\xa8\xd7\x99\xd7\x9d\x10\xd7\x90\xd7\xaa\x10\xd7\x94\xd7\x98\xd7\xa7\xd7\xa1\xd7\x98\x10\xd7\x94\xd7\x96\xd7\x94' 
>>> print text_utf8 
איךממיריםאתהטקסטהזה

来源

2015-07-30 15:26:25 AngelIW

如何将unicode转义序列URL转换为python unicode？

回答

相关问题