2016-12-06 74 views
0

我的Apache Spark应用程序获取各种输入文件并将结果和日志存储在其他文件中。输入文件与预计在亚马逊云上运行的应用程序一起提供(EMR似乎优于EC2)。如何从amazon emr中检索文件?

现在,我知道我应该创建一个包含我的输入文件和访问它们的应用程序的超级jar。但是,一旦执行完成,我如何从云中检索生成的文件?

作为附加信息,使用代码中的相对路径创建和写入文件。

回答

0

假设你的意思是你想访问群集外的Spark应用程序生成的输出,通常要做的就是写入S3。那么你当然可以从EMR集群外部直接从S3读取数据。

+0

这将意味着我必须用S3路径初始化我的应用程序? 例如,PrintWriter writer = new PrintWriter(“s3:\\ log \\ logfile.txt”,“UTF-8”)。 – user3209815