csv(下面的示例)显示给定周(week_end_date)的项目的绝对错误。作为CSV显示,项目属于一个部门,一个部门有多个项目: 基于组创建新的熊猫数据框
我想要做的是创造它具有以下字段的新数据框中:
mdse_dept_ref_i week_end_date average_ABSError num_items_in_department
这里就是我能够做到:
new_df = df.loc[df['mdse_dept_ref_i'] == 47]
num_items = new_df.groupby('week_end_date').size()
avg_abs_error = new_df.groupby(['week_end_date'])['ABSError'].mean()
new_df = num_items.to_frame().join(avg_abs_error.to_frame())
但是,我不知道如何为各部门建立一个单一的数据框自动做到这一点,因为最终我想看看如何在项目数部门正在影响AV erage错误,也能够看到表现最差的部门。此外,当我执行groupby('week_end_date')
时,week_end_date
将成为索引,但我希望它是新数据框中的字段,以便在绘图时使用它。有人可以帮帮我吗?
什么是 “一些绘图” 的意思是,到底是什么? –
你的问题不是很清楚。你可以举一些你想要的数据格式的例子吗? – Jacobm001
@MadPhysicist:请参阅更新后的问题 – user1274878