0

在EC2计算机上使用Spark 2.0.2时,我一直试图用带分区的parquet格式将表写入S3,但应用程序似乎永远不会完成。我可以看到Spark已将文件写入_temporary下的S3存储桶/文件夹,并且一旦Spark saveAsTable JOB完成,应用程序就会挂起。使用saveAsTable将实地数据写入S3不会完成

看看s3显示分区是使用文件夹分区内的数据(点选)生成的,但_temporary文件夹仍然存在,并且show表格不包含新表格。

是否有其他人遇到此问题或有解决方案?

有没有人知道在saveAsTable命令下面发生了什么?

+0

请使用loglevel DEBUG/INFO运行作业,并检查它卡在哪里。 – RBanerjee

回答

0

它没有挂起,它只是将数据从临时存储复制到目标,这需要大约数据/(10 MB/s)的时间。 Spark正在调用Hadoop的FileOutputCommitter来执行此操作,并且它认为它与Filesytsem对话,其中rename()是一个即时事务。

相关问题