我有一个数据框,其中包含一个工资列,指定一个小时工资和一个联合列,指定员工是否在工会。还有其他变数,但现在它们并不重要。我试图找到工会中员工的平均工资。我编写了代码,它提供了一个关于员工是否在工会中的真/假清单。但是,我不知道如何应用这份名单来获得平均工资。预先感谢您的帮助。Python熊猫数据框控制流程
#Read cps.csv file
import pandas as pd
cps_df = pd.read_csv('cps.csv')
cps_df
#Function to determine whether or not an employee is in a union
def hourly_wage(x):
""" return true if union else false """
if x['union'] == 'Union':
return True
else:
return False
#Function to create a list of union vs non-union
def union_list(y):
""" return a list determining union vs non-union """
return [hourly_wage(x) for index, x in y.iterrows()]
#Print list
%time
print(union_list(cps_df))
也许我错过了这里的一些东西,但为什么不'cps_df [cps_df [''union'] =='Union'] ['wage']。mean()'? – iayork
我需要创建一个熊猫数据框,并通过使用控制流遍历数据框的每一行来计算工会工人的平均小时工资。所以我猜我需要像这样设置它。我错了吗? –