从Apache Spark将分段上传到Amazon S3

如何在将数据保存到Amazon S3时使Apache Spark使用分段上传。 Spark使用RDD.saveAs...File方法写入数据。当目的地以s3n://开头时，Spark会自动使用JetS3Tt进行上传，但对于大于5G的文件，此操作将失败。需要使用分段上传将大文件上传到S3，这对于较小的文件也是有利的。在JetS3Tt中支持分段上传，带有MultipartUtils，但Spark在默认配置中不使用此功能。有没有办法让它使用这个功能。从Apache Spark将分段上传到Amazon S3

来源

2014-10-12 Daniel Mahler