0
我试图将一个数据框保存为按列分区的CSV文件。在Spark中使用partitionBy保存CSV文件
val schema = new StructType(
Array(
StructField("ID",IntegerType,true),
StructField("State",StringType,true),
StructField("Age",IntegerType,true)
)
)
val df = sqlContext.read.format("com.databricks.spark.csv")
.options(Map("path" -> filePath).schema(schema).load()
df.write.partitionBy("State").format("com.databricks.spark.csv").save(outputPath)
但是输出不会与任何分区信息一起保存。它看起来像partitionBy完全被忽略。没有错误。它适用于如果我尝试与拼花地板格式相同。
df.write.partitionBy("State").parquet(outputPath)
我在这里错过了什么?
对于何时/何时可用,没有评论。在此期间,有关如何有效执行此应用程序代码的任何想法? – Cheeko
看起来csv解析将成为2.x中核心Spark SQL的一部分... – zero323
您能否提供关于此发布说明或博客的链接?想了解更多信息。谢谢! – Cheeko