使用saveAsTable将实地数据写入S3不会完成

在EC2计算机上使用Spark 2.0.2时，我一直试图用带分区的parquet格式将表写入S3，但应用程序似乎永远不会完成。我可以看到Spark已将文件写入_temporary下的S3存储桶/文件夹，并且一旦Spark saveAsTable JOB完成，应用程序就会挂起。使用saveAsTable将实地数据写入S3不会完成

看看s3显示分区是使用文件夹分区内的数据（点选）生成的，但_temporary文件夹仍然存在，并且show表格不包含新表格。

是否有其他人遇到此问题或有解决方案？

有没有人知道在saveAsTable命令下面发生了什么？

来源

2017-03-03 user3542930

请使用loglevel DEBUG/INFO运行作业，并检查它卡在哪里。 – RBanerjee

它没有挂起，它只是将数据从临时存储复制到目标，这需要大约数据/（10 MB/s）的时间。 Spark正在调用Hadoop的FileOutputCommitter来执行此操作，并且它认为它与Filesytsem对话，其中rename（）是一个即时事务。

来源

2017-03-04 12:59:21

使用saveAsTable将实地数据写入S3不会完成

回答

相关问题