2017-06-14 50 views
0

我使用this program,所有的鸣叫我得到是这样的“因为它是在阿拉伯语语言”:Twitter的搜索程序

"text": "\\u0637\\u0627\\u0644\\u0628\\u0629 \\u062c\\u0633\\u0645\\u0647\\u0627 \\u062c\\u0628\\u0627\\u0631 \\u062a\\u062a\\u062e\\u062f \\u0645\\u0646 \\u0627\\u0644\\u0634\\u0627\\u0631\\u0639 \\u0648 \\u062a\\u062a\\u0646\\u0627\\u0643..\\n\\n\\u0633\\u0643\\u0633_\\u0627\\u062c\\u0646\\u0628\\u064a\\n\\u0645 

我有一个问题,它和得到的答案here

问题是:我在哪里可以在程序中使用ensure_ascii=False,以便它可以正确读取阿拉伯语的推文?我不知道我需要在哪个地方复制它。

回答

0

您需要修改twitter_search.py

更换所有

json.dump(<something>,fd) 

对于

json.dump(<something>,fd,ensure_ascii=False) 

您还需要全部更换为<file_descriptor> UTF-8的人

import codecs 
... 
... 
fd = codecs.open("/tmp/lol", "w", "utf-8") 

如果你使用python处理结果,另一种方法是使用ascii字符串。

s='\\u0637\\u0627\\u0644\\u0628\\u0629...' 
print s.encode("utf-8").decode('unicode_escape') 
+0

我你说的做了什么,但没有结果,IDK为什么 – Mahran

+0

的结果是:在12-16位置“字符映射”编解码器不能编码字符:字符映射为 Mahran

+0

查看更新_____ – xvan