我从它看起来像一个SQL源的数据帧:根据列值对火花数据帧进行分区?
User(id: Long, fname: String, lname: String, country: String)
[1, Fname1, Lname1, Belarus]
[2, Fname2, Lname2, Belgium]
[3, Fname3, Lname3, Austria]
[4, Fname4, Lname4, Australia]
我想分区和写数据到CSV文件,其中每个分区是基于该国的首字母,所以白俄罗斯和比利时应一个在输出文件,奥地利和澳大利亚在其他。
除了这个问题之外,df.withColumn是否会影响性能,或者是否可以以更有效的方式完成? – jdk2588
你也可以使用spark的'substring'函数代替'split',我认为这样更具可读性 –
我们可以用多列来做到这一点吗? – user482963