2016-11-15 42 views
1

我也有类似如下表组行到一个列表中pyspark

**col1** **col2** 

    A  1 
    B  2 
    A  3 
    B  4 
    C  1 
    A  2 

我希望它是在col1分组并创建COL2值的列表,以结构的火花数据帧。以下应该是我的输出

**col1** **list** 
    A  [1,3,2] 
    B  [2, 4] 
    C   [1] 

有人可以指向我的任何引用吗?

回答

1

这应该做的工作:

df.groupBy($"col1").agg(collect_list($"col2"))