假设我有一个名为df
的DataFrame。我运行下面的命令来尝试它保存到本地:试图保存Spark SQL Dataframes总是在空目录中导致
df.coalesce(1).
write.
format("com.databricks.spark.csv").
option("header", "true").
parquet("example")
}
然而,当我这样做,去检查文件是否被创建(目录example
,我看只有两个文件的目录:
_SUCCESS ._SUCCESS.crc
我怎样才能得到数据帧妥善保存该文件?
如果是重要的,我也是这样通过Jupyter笔记本电脑,所以本质上,当我在当地说,我的意思是我保存 在Jupyter Notebook服务器上,不在Spark运行的位置(我将Spark指向另一个主节点)。
我曾经尝试过,如果标题在这种情况下有点误导,对不起。我也正在尝试实现紧凑的镶木地板。不幸的是,我仍然得到空目录。 –
看看删除标题选项是否有帮助。我记得有时候csv格式的选项不能按预期工作。 –