2017-02-11 80 views
0

当我向S3提交创建实木复合地板文件的工作时,EMR中是否有任何服务或可以看到进度条(或经过时间)的方式?EMR Spark - 如何查看将文件写入S3的进度?

代码:

df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output") 
+0

根据我的经验,你应该避免以这种方式附加新数据。运行时间与s3上的现有数据量成线性关系。看到这个:http://stackoverflow.com/questions/40830152/how-to-avoid-reading-old-files-from-s3-when-appending-new-data 当使用s3-dist-cp我可以看到资源管理器中的进度(http:// :8088 /集群) – Niros

+0

Niros的建议是正确的,但工作进度在Spark UI – eliasah

回答

0

可以使用电子病历的8088端口去到ResourceManager。这会显示内存使用情况。

从那里你可以导航到ApplicationMaster这是群集的火花UI。这将向您展示该工作的进展情况,并详细介绍每项工作。