Spark将SaveAsTextFile写入群集在哪里？

我有点失落（Spark新手）。我创建了一个EC2集群，并提交了一个Spark作业，最后一步保存为文本文件。代码为Spark将SaveAsTextFile写入群集在哪里？

reduce_tuples.saveAsTextFile('september_2015')

我提交的python文件的工作目录是/ root。我无法找到一个名为september_2005的目录，如果我再次尝试运行工作，我得到的错误：

: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists

EC2的地址是在那里我ssh'ing主节点，但我不有一个文件夹/user/root。

似乎像Spark创建september_2015目录somehwere，但找到找不到它。 Spark如何写出生成的目录？为什么它将我指向主节点文件系统中不存在的目录？

来源

2015-10-20 xv70

您并未将其保存在本地文件系统中，而是将它保存在hdfs群集中。尝试eph*-hdfs/bin/hadoop fs -ls /，那么你应该看到你的文件。有关更多命令，请参阅eph*-hdfs/bin/hadoop help，例如。 -copyToLocal。

来源

2015-10-20 20:12:40 Reactormonk

Thanks @Reactormonk！我现在可以看到该文件夹，现在我可以看到我可以使用'ephemeral -hdfs/bin/hadoop fs -copyToLocal/user/root/september_2015/root /'将该文件夹复制到我的主节点。 – xv70

Spark将SaveAsTextFile写入群集在哪里？

回答

相关问题