2016-11-30 155 views
1

我有一个样本数据集:输出GROUPBY到CSV文件熊猫

import pandas as pd 
df = {'ID': ['H1','H2','H3','H4','H5','H6'], 
     'AA1': ['C','B','B','X','G','G'], 
     'AA2': ['W','K','K','A','B','B'], 
     'name':['n1','n2','n3','n4','n5','n6'] 
} 

df = pd.DataFrame(df) 

它看起来像:

df 
Out[32]: 
    AA1 AA2 ID name 
0 C W H1 n1 
1 B K H2 n2 
2 B K H3 n3 
3 X A H4 n4 
4 G B H5 n5 
5 G B H6 n6 

我想GROUPBY AA1和AA2(唯一AA1和AA2对)和它doesn无论哪个ID和名称值与唯一对一起拾取,并将其输出到.csv文件,因此.csv文件中的输出将如下所示:

AA1 AA2 ID name 
    C W H1 n1 
    B K H2 n2 
    X A H4 n4 
    G B H5 n5 

我试图代码:

df.groupby('AA1','AA2').apply(to_csv('merged.txt', sep = '\t', index=False)) 

但to_csv不承认,可我放什么。适用()来只输出GROUPBY结果到CSV文件?

+0

所以你只是想每一个独特的'AA1','AA2'对的第一行? –

+0

您指出的行为不是groupby操作。你是否只保留了一对独特的AA1-AA2配对?或者你需要在每一对中进行汇总? – 3novak

+0

只保留第一个独特的AA1 -AA2对 – Jessica

回答

2

问题是您正试图应用不存在的函数to_csv。无论如何,groupby也没有to_csv方法。 pd.Seriespd.DataFrame呢。

什么你应该用的是drop_duplicates这里,然后导出生成的数据帧到CSV:

df.drop_duplicates(['AA1','AA2']).to_csv('merged.txt') 

PS:如果你真的想要一个GROUPBY的解决方案,有此一说正好是12倍比drop_duplicates慢...:

df.groupby(['AA1','AA2']).agg(lambda x:x.value_counts().index[0]).to_csv('merged.txt') 
0

可以使用groupbyhead

df.groupby(['AA1', 'AA2']).head(1) 

enter image description here