2016-05-16 181 views
0

我在我的ubuntu 14.04上使用Sun Grid Engine将我的作业排队等待在多核CPU上运行。 我已经在我的系统上安装并设置了SGE,但在测试时出现问题。我创建了一个“hello_world”目录,它包含两个名为“hello_world.sh”的shell脚本,第一个包括一个简单的命令,第二个包括qsub命令,将第一个脚本文件作为要运行的作业提交。 下面是 “hello_world.sh” 包括:SGE提交的作业不运行

#!/bin/bash 

echo "Hello world" > /home/theodore/tmp/hello_world/hello_world_output.txt 

而这里就是 “hello_world_qsub.sh” 包括:

#!/bin/bash 

qsub \ 
    -e /home/hello_world/hello_world_qsub.error \ 
    -o /home/hello_world/hello_world_qsub.log \ 
    ./hello_world.sh 

发放的允许第二sh的文件,并以” ./hello_world_qsub它运行后.SH”命令从指定的目录中,输出是合理的:

Your job 1 ("hello_world.sh") has been submitted 

但输出‘qstat命令’命令是令人沮丧的:

job-ID prior name  user   state submit/start at  queue       slots ja-task-ID 
    ----------------------------------------------------------------------------------------------------------------- 
    1 0.50000 hello_worl mhr   qw 05/16/2016 20:26:23         1   

而“状态”列总是保持在“qw”并且从不变为“r”。

这里的 “qstat命令-j 1” 命令的输出:

============================================================== 
job_number:     1 
exec_file:     job_scripts/1 
submission_time:   Mon May 16 20:26:23 2016 
owner:      mhr 
uid:      1000 
group:      mhr 
gid:      1000 
sge_o_home:     /home/mhr 
sge_o_log_name:    mhr 
sge_o_path:     /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games 
sge_o_shell:    /bin/bash 
sge_o_workdir:    /home/mhr/hello_world 
sge_o_host:     localhost 
account:     sge 
stderr_path_list:   NONE:NONE:/home/hello_world/hello_world_qsub.error 
mail_list:     [email protected] 
notify:      FALSE 
job_name:     hello_world.sh 
stdout_path_list:   NONE:NONE:/home/hello_world/hello_world_qsub.log 
jobshare:     0 
env_list:     
script_file:    ./hello_world.sh 
scheduling info:   queue instance "[email protected]" dropped because it is temporarily not available 
         All queues dropped because of overload or full 

而这里的 “qhost” 命令的输出:

HOSTNAME    ARCH   NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS 
------------------------------------------------------------------------------- 
global     -    -  -  -  -  -  - 
localhost    -    -  -  -  -  -  - 

我应该怎么做才能让我的工作运行,完成他们的任务?

+0

“qhost”命令的输出是什么? –

+0

@Finch_Powers我在上面的问题中添加了“qhost”的输出。 –

回答

2

从您的qhost输出中看起来您的机器“localhost”已在SGE中正确配置。但是,在“本地主机”上,sge_execd未运行或未正确配置。如果是,qhost会报告“localhost”的统计信息。

+0

谢谢,解决方案是什么?我如何运行sge_execd?在“qmon”环境中配置sge_execd还是有其他方法? –

+0

在我的安装中,我可以在'$ SGE_ROOT/bin/linux-x64 /'下找到sge_execd尝试启动它。如果它不起作用,输出至少应该让你知道下一步该做什么。 –

0

我的问题解决了。正如@Finch_Powers所说的问题是关于sge_execd。 gridengine-exec没有正确安装。一旦我重新安装,问题就解决了。

+0

@Finch_Powers谢谢:) –