2017-04-06 88 views
0

我没有很多信息,所以请让我知道我能做些什么来诊断此问题。HPC计算节点没有运行作业

我的HPC有几个计算节点,我昨晚提交的其中一个作业在运行几个小时后就暂停了。今天早上我用qstat进行了检查,发现自从我上次检查它之后,它没有取得任何进展。其他节点似乎处理得很好。

我删除了作业并重新提交了该作业,但它看起来就好像它在队列中一样,即使在它之前没有计划其他作业。

gstat显示它没有排队的进程,但节点处于活动状态。

qstat命令-s说“不运行:排水系统,让饥饿的作业运行”

如果它是有帮助的,这是建立在一个CentOS 6.5的环境。

我还能做些什么来诊断这个问题?

回答

1

事实证明,运行超过24小时的转矩脚本会导致暂停被放置到调度器提交的所有其他作业上。我们需要杀死负责任的工作,一切都恢复原状。