我们使用下面的方法来保存从docs火花SQL数据帧Spark:如何防止DataFrameWriter在调用write.partitionBy时删除分区列?
public DataFrameWriter<T> partitionBy(scala.collection.Seq<String> colNames)
:
分区由文件系统在给定的列中的输出。如果指定了 ,则输出将在类似于Hive的 分区方案的文件系统上进行布局。举个例子,当我们通过 一年,然后一个月分区的数据集,目录布局会是什么样子:
- 年= 2016 /月= 01/
- 年= 2016 /月= 02/
我们的代码看起来是这样的:
df.repartition(new Column("day")).write.partitionBy("day").mode(SaveMode.Overwrite).parquet(outputPath)
我们得到我们期望的目录布局,但我们发现拼花文件没有在他们day
列了。我们希望镶木地板文件有一天的专栏。我们应该怎么做?