2017-08-04 92 views
0

我有以下数据框data如何总结箱的Y值而不是平均值?

import pandas as pd 
from io import StringIO 
data = pd.read_table(StringIO("""time_diff avg_trips_per_day 
631   1.0 
231   1.0 
431   1.0 
7031  1.0 
17231  1.0 
20000  20.0 
21000  15.0 
22000  10.0"""), delim_whitespace=True) 

我创建了一个条形图为folows:

import seaborn as sns 
data['timegroup'] = pd.qcut(data['time_diff'], 3) 
sns.barplot(x='timegroup', y='avg_trips_per_day', data=data) 

目前需要的avg_trips_per_day值每个箱(timegroup),并计算平均avg_trips_per_day。 但是,我想总结avg_trips_per_day的值为每个bin timegroup而不是使用均值。我怎样才能做到这一点?

回答

3

使用的barplot估计参数:

sns.barplot(x='timegroup', y='avg_trips_per_day', data=data, estimator=sum) 

enter image description here

+0

感谢。顺便说一句,在我的情况下,第一个箱的下限由于某种原因是负的,而在数据中我没有负数。你知道如何解决它吗? – Dinosaurius

+0

@Dinosaurius恐怕不是。它返回一个IntervalIndex并且它们不可变。可能你需要从头开始构建整个索引。 – ayhan