2017-08-31 46 views
-3

使用Python和熊猫我要实现以下目标:导入文件,并转换过大熊猫

我有以下文件格式约600 JSON文件:

User Name: ǝuuǝıɹpɐ\nAll Tags: Delightful Followers\t|\tlibtards\t........|\tExpressionEngine\t|\t\nYour Tag: 

我想创建一个大熊猫数据帧所有文件,并让它看起来像这样

User name  All Tags          Your tag 
ǝuuǝıɹpɐ  Delightful Followers\t|\tlibtards\t.... 
.    .       
.    . 

我尝试usign下面的代码:

data = pd.read_csv('D:/datasets/edx1/word_cloud/557563.json', sep="\n", header=None) 

这给了我下面的数据帧

0 User Name: ǝuuǝıɹpɐ 
1 All Tags: Delightful Followers\t|\tlibtards\t|... 
2 Your Tag: 

还林不知道为什么JSON文件看起来它的方式,网上阅读它说,JSON文件是字典,但它似乎没有在这里是如此。

回答

1

1)通过对输入目录使用os.listdir()遍历文件,例如:docs

2)为每个文件,open(具体步骤取决于您的PY版本),并使用该文件转换成一个Python字典json.load()来自json模块,docs。这会将json变成标准dict。 3)您可以使用from_dict()docs将这些字典转换为熊猫DataFrame

+0

我不认为它是'json'格式,请看一下这个问题中的例子。 – sKwa

+0

是的,所以文件类型说它的json,但格式根本不相似,我一直使用open('filename')来导入它们。 –

+0

@sKwa当然。我没有仔细看过它。好决定。 – patrick