2015-03-30 666 views
5

我们正在运行某些spark工作,我们看到hdfs中的.sparkstaging主管在工作完成后仍然存在。 是否有任何参数需要设置为在作业完成后删除暂存目录?。hdfs中的sparkstaging目录没有被删除

spark.yarn.preserve.staging.files默认为false,因此我们没有明确设置它。 我们正在使用hortonworks和火花版本纱线行走火花1.2

问候, 馒头

回答

1

请您在作业完成控制台输出以下日志事件,更深入地了解这是怎么回事:

  1. ApplicationMaster: Deleting staging directory .sparkStaging/application_xxxxxx_xxxx - 这意味着应用程序能够成功清理临时目录
  2. ApplicationMaster: Staging directory is null - 这意味着该应用程序是不是能找到个临时目录是应用
  3. ApplicationMaster: Failed to cleanup staging dir .sparkStaging/application_xxxxxx_xxxx - 这意味着出事了删除临时目录

难道你还仔细检查了集群中的这些属性可以影响到你所提到的情况:spark.yarn.preserve.staging.filesSPARK_YARN_STAGING_DIR