0
我想根据它们的ID将数据帧拆分为多个数组。将数据帧拆分为数组scala
所以我有一个表
id|name
12|a
12|b
12|c
13|z
13|y
13|z
,我想看起来像多个向量:
<a,b,c> <x,y,z>
所以我设法利用所有不同的ID:
val ids=dataframe.select("id").distinct.collect.flatMap(_.toSeq)
那将返回12和13. 我试图让他们每个人的名字:
val namesArray=ids.map(id=>dataframe.where($"id"===id))
但这似乎不是因为它返回的列名称的方式,我应该找到一种方法来获取只有名称。
谢谢@Saravesh Kumar Singh的回复。 collect_list不被编译器识别。你是什么意思? – Kratos
'org.apache.spark.sql.functions.collect_list' –