2016-11-18 70 views
-1

因此,我一直在尝试将一些查询导出并过滤到MySQL数据库以JSON文件,并且在尝试了所有解决此问题的'代码'我用来出口我无法修复它。在字符串中存在编码问题的JSON文件(类似于 u00xx的重音字符)

文字部分看起来除了被替换为\u00x值的西班牙字符(主要是重音)不错,例如:

[{..., "lang_tweet": "es", "text_tweet": "Recuerdo un d\u00eda de, *llamada a la 1:45*, \"Micho... Que me muero.!!\",...},...] 

所以我的问题是直接,如果有反正我可以借此JSON文件,处理它并修复错误?如果它存在的话,我该怎么做?任何帮助将感谢,因为我昨天以来有这个错误,我需要尽快修复它。

看看到JSON完整的文件我想解决: https://github.com/Vichoko/real-time-twit/blob/master/auto_labeling/json/tweets_sismos/test2.json

+1

是绝对*无可厚非这里* – deceze

+0

感谢@deceze我会看看到参考,meamwhile让我告诉你,我发现那些字符串是错误的,因为我需要带他们并训练一个分类器,所以我需要重音字符,因为他们是,而不是那些加盖字符。我不习惯管理'\ u00x'字符 –

+0

只需使用标准附加的JSON解析器来解析您选择的编程语言中的JSON即可。 – deceze

回答

0

正如@deceze表示,JSON是正确的。如果我在Python做:

with open("file.json", "r") as readfile: 
    data = json.load(readfile) 

print(data[0][u'text_tweet']) 

它打印出正确地将西班牙字符:

> Recuerdo un día de, *llamada a la 1:45*, "Micho... Que me muero.!!"