我正在使用以下代码来每年聚集学生。目的是了解每年的学生总数。如何计算pyspark中groupBy后的唯一ID
from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
结果是:
[按年级学生] [1]
,我发现有这么多的ID重复所以结果是错误的,巨大的问题。
我希望每年都聚集学生,按年份统计学生总数,并且重复编号。
我希望问题很清楚。我'新成员 感谢
这似乎并不像熊猫吗? –
我打电话给Hive表中的数据 – Lizou