2014-10-12 92 views
4

如何在将数据保存到Amazon S3时使Apache Spark使用分段上传。 Spark使用RDD.saveAs...File方法写入数据。当目的地以s3n://开头时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件,此操作将失败。需要使用分段上传将大文件上传到S3,这对于较小的文件也是有利的。在JetS3Tt中支持分段上传,带有MultipartUtils,但Spark在默认配置中不使用此功能。有没有办法让它使用这个功能。从Apache Spark将分段上传到Amazon S3

回答

0

s3n似乎在弃用路径。

从他们documentation

亚马逊EMR使用的S3本地文件系统与所述URI方案,S3N。虽然这仍然有效,我们建议您使用最佳的性能,安全性S3 URI方案和可靠性

+0

但Spark不支持s3:// ... – 2015-01-27 18:07:42

2

这是S3N的限制,你可以使用新的S3A协议来访问您的S3中的文件。 s3a基于aws-adk库,并支持包括分段上传在内的大部分功能。在此link中的更多详细信息: