1
case class Step (Id : Long,
stepNum : Long,
stepId : Int,
stepTime: java.sql.Timestamp
)
我有一个数据集[步骤],我想对“Id”列执行groupBy操作。 我的输出应该看起来像Dataset [(Long,List [Step])]]。我该怎么做呢?Spark GroupBy聚合函数
可以说变量 “inquiryStepMap” 是一个类型的数据集[步骤]然后,我们可以按照如下
val inquiryStepGrouped: RDD[(Long, Iterable[Step])] = inquiryStepMap.rdd.groupBy(x => x.Id)