2014-03-31 46 views
2

我有一个月的数据有关火车站的数据,其中三个是索引:站,日期,小时。 我可能看起来像这样:熊猫groupby列没有multiindex

Station Date  Hour Passengers 
Berlin HBF 2012-12-24 12:00 1000 
Berlin HBF 2012-12-24 13:00 2000 
Berlin HBF 2012-12-24 14:00 1000 
Berlin HBF 2012-12-24 15:00 1000 
.... 
Stuttgart 2012-12-24 12:00 500 

由于我只对资金用于在一个月内站感兴趣,我想通过车站,日期和小时GROUPBY,从而使最终的结果看起来是这样的:

Station Passengers 
Berlin HBF 4000 
.... 
Stuttgart 500 

不过,我不能让熊猫这个解决方案,我想: byStation = traindata.groupby([ '站', '日期', '一小时'])AGG(np.sum() ) 但是,这只是返回一个multiindex,与所有行...

+0

看起来像你所说的“站”希望组仅做一笔过“乘客1” -column。这里你不需要多索引(你的解决方案会创建一个,但因为它与原始数据是一样的,所以它是无用的) – dorvak

+0

呃,现在我看到了错误。谢谢你这么多! 你可以添加你的评论作为答案 –

回答

2

看起来你只想通过“Station”进行分组,然后对“Passangers”列进行求和。这里不需要多索引。你的解决方案将创建一个,但因为它与原始数据是一样的,所以它是无用的。

这一个应该工作:

traindata.groupby("Station").Passengers.sum()