2015-10-20 99 views
1

我有点失落(Spark新手)。我创建了一个EC2集群,并提交了一个Spark作业,最后一步保存为文本文件。代码为Spark将SaveAsTextFile写入群集在哪里?

reduce_tuples.saveAsTextFile('september_2015') 

我提交的python文件的工作目录是/ root。我无法找到一个名为september_2005的目录,如果我再次尝试运行工作,我得到的错误:

: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ec2-54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists 

EC2的地址是在那里我ssh'ing主节点,但我不有一个文件夹/user/root

似乎像Spark创建september_2015目录somehwere,但找到找不到它。 Spark如何写出生成的目录?为什么它将我指向主节点文件系统中不存在的目录?

回答

2

您并未将其保存在本地文件系统中,而是将它保存在hdfs群集中。尝试eph*-hdfs/bin/hadoop fs -ls /,那么你应该看到你的文件。有关更多命令,请参阅eph*-hdfs/bin/hadoop help,例如。 -copyToLocal

+0

Thanks @Reactormonk!我现在可以看到该文件夹​​,现在我可以看到我可以使用'ephemeral -hdfs/bin/hadoop fs -copyToLocal/user/root/september_2015/root /'将该文件夹复制到我的主节点。 – xv70

相关问题