组行到一个列表中pyspark

**col1** **col2** 

    A  1 
    B  2 
    A  3 
    B  4 
    C  1 
    A  2

我希望它是在col1分组并创建COL2值的列表，以结构的火花数据帧。以下应该是我的输出

**col1** **list** 
    A  [1,3,2] 
    B  [2, 4] 
    C   [1]

有人可以指向我的任何引用吗？

2016-11-15 user848066

这应该做的工作：

df.groupBy($"col1").agg(collect_list($"col2"))

2016-11-15 23:14:37

回答