2015-07-21 156 views
1

相当类似的问题被问到there,并得到了在R的user1609452出色的回答。但仍然是一个具体的问题。我想扩大这个问题。让我们采取几乎相同的表(MyData):熊猫df嵌套json

ID Location L_size L_color Station S_size S_color  Category C_size C_color 
1  Alpha  6  #000000  Zeta  3  #333333  Big  0.63  #306100 
2  Alpha  6  #000000  Zeta  3  #333333  Medium  0.43  #458b00 
3  Alpha  6  #000000  Zeta  3  #333333  small  0.47  #6aa232 
4  Alpha  6  #000000  Yota  3  #4c4c4c  Big  0.85  #306100 
5  Alpha  6  #000000  Yota  3  #4c4c4c  Medium  0.19  #458b00 
6  Alpha  6  #000000  Yota  3  #4c4c4c  small  0.89  #6aa232 
7  Beta  6  #191919  Theta  4  #666666  Big  0.09  #306100 
8  Beta  6  #191919  Theta  4  #666666  Medium  0.33  #458b00 
9  Beta  6  #191919  Theta  4  #666666  small  0.79  #6aa232 
10  Beta  6  #191919  Theta  4  #666666  Big  0.89  #306100 
11  Beta  6  #191919  Meta  3  #7f7f7f  Medium  0.71  #458b00 
12  Beta  6  #191919  Meta  3  #7f7f7f  small  0.59  #6aa232 

每个类别都有一个或多个属性(这里只有一个:大小)。我想要什么,这是每个父母在JSON文件/儿童报出大小:

 { 
"name":"MyData", 
"size":12, 
"color":"#ffffff" 
"children":[ 
    { 
    "name":"Alpha", 
    "size":6, 
    "color":"#000000" 
    "children":[ 
     { 
      "name":"Zeta", 
      "size":3, 
      "color":"#333333" 
      "children":[ 
       { 
       "name":"Big", 
       "size":0.63, 
       "color":"#306100" 
       }, 
... 

等 我不能让它在R,也没有在大熊猫......你知道吗?

编辑: 我的目标是将不同的信息链接到儿童,不仅尺寸。我为每个主列添加了一个颜色列。为了清晰起见,我的初始数据框很大,并且有很多信息,但我无法将其粘贴到此处。

第二次编辑:给克里斯回答 它几乎奏效!伟大的更新。仍然json文件没有正确上传到我的JavaScript文件。该文件似乎是颠倒(MYDATA是在结束),并从父母的信息是之前和之后的儿童的信息:

{ 
    "children":[ 
     { 
     "color":"#000000", 
     "children":[ 
      { 
       "color":"#4c4c4c", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.85 
       }, 
       "name":"Yota", 
       "size":3 
      }, 
      { 
       "color":"#333333", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.63 
       }, 
       "name":"Zeta", 
       "size":3 
      } 
     ], 
     "name":"Alpha", 
     "size":6 
     }, 
     { 
     "color":"#191919", 
     "children":[ 
      { 
       "color":"#7f7f7f", 
       "children":{ 
        "color":"#458b00", 
        "name":"Medium", 
        "size":0.71 
       }, 
       "name":"Meta", 
       "size":3 
      }, 
      { 
       "color":"#666666", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.09 
       }, 
       "name":"Theta", 
       "size":4 
      } 
     ], 
     "name":"Beta", 
     "size":6 
     } 
    ], 
    "name":"MyData", 
    "size":12 

最后编辑时间:正常工作。克里斯在他更新的时候删除了他编写的脚本的最后部分,所以在这里。谢谢克里斯!

data = {'name': 'MyData', 
     'size': len(MyData), 
     'children': make_children(MyData, levels)} 

print json.dumps(data) 

回答

2

首先,您需要某种形式的组成每个级别的映射。我使用的列的元组定义了"name"和你想要的那个级别的其他属性的前缀,就像这样。

levels = [('Location', 'L_'), 
      ('Station', 'S_'), 
      ('Category', 'C_')] 

然后,它是一个类似的递归函数,只是现在额外的列在每一步被拾起(发现与前缀开头列)和荏苒的列/值被添加到树。有足够的空间来清理它,但至少应该提供一个想法。

def make_children(df, levels): 
    if len(levels) == 1: 
     name, prefix = levels[0] 
     level_cols = [name] + [c for c in df if c.startswith(prefix)] 
     df = df[level_cols] 
     key_names = ['name'] + [c.strip(prefix) for c in level_cols[1:]] 
     return dict(zip(key_names, df.values[0])) 
    else: 
     h, tail = levels[0], levels[1:] 
     name, prefix = h 
     level_cols = [name] + [c for c in df if c.startswith(prefix)] 

     data = [] 
     for keys, df_gb in df.groupby(level_cols): 
      key_names = ['name'] + [c.strip(prefix) for c in level_cols[1:]] 
      d = dict(zip(key_names, keys)) 
      d['children'] = make_children(df_gb, tail) 
      data.append(d) 
     return data  
+0

谢谢克里斯。您找到了避免上述链接中的R脚本的好方法。我的例子不够好,因为你的脚本巧妙地从df的长度中取出了大小。我想要的不仅仅是尺寸......我会编辑这个问题...... – Sara

+0

克里斯,我认为我们到了那里,但虽然json是有效的,但它没有正确上传我的javascript。看到我的第二个更新。谢谢! – Sara

+0

@Sara - JSON是无序的,所以这不是问题。但是,一切都需要成为字符串。在转换为字典/ JSON之前,尝试执行'df = df.astype(str)'。 – chrisb