2017-07-30 86 views
0

首先,我有keypairs,虽然涉及到ssh,但这不是一个密码问题。runtime-lamboot建议我自动化ssh - Ubuntu

我也有MPICH,Hydra,SLURM和lamd ...这是一个集群计算问题。

Node0将启动,但node1挂起。我已经有这个问题好几天了。我的nfs镜像工作的很好,我可以在node2上的8个核心上运行Game of ...这真的很酷,只是问我一下吧...

但是,当我想要在所有三个节点我一起点击来自每个节点的密码请求,因为node0使用ssh发送进程。同样,不是密码问题,HYDRA(slurm和lamd也是)希望从node1获得我的用户密码。基本上我的登录凭证。我可以将其更改为MPICHuser帐户;然而,困境仍将存在。

除非我在所有三个没有密码的节点上创建MPICHusers ......可以这样做吗?这似乎是安全风险的缩影。

所以问题是,无论何时以不会挂起lamboot的方式弹出密码凭证,我是否可以自动执行密码凭证?

现在已经很晚了,看着我有什么让我想知道如果slurm是新的罪魁祸首。

这里是多了还是少了什么我在看:

我@何:/镜像/ GameOfLife $ mpiexec.hydra -f /镜像/ machinefile -n 10 ./life 10 10 30

[@ mpiexec的地方] HYDU_process_mfile_token(utils的/ ARGS/args.c:296):在这个时候,不支持令牌NODE0

[@ mpiexec的地方] HYDU_parse_hostfile(utils的/ ARGS/args.c:343):无法处理代币

[mpiexec @ wherever] mfile_fn(ui/mpich/utils.c:336):error pa rsing HOSTFILE

[@ mpiexec的地方] match_arg(utils的/ ARGS/args.c:152):匹配处理程序返回错误

[@ mpiexec的地方] HYDU_parse_array(utils的/ ARGS/args.c:174):参数匹配返回错误

[@ mpiexec的地方] parse_args(UI/MPICH/utils.c:1596):错误解析输入数组

[@ mpiexec的地方] HYD_uii_mpx_get_parameters(UI/MPICH/utils.c:1648 ):无法解析用户参数

[mpiexec @ wherev er] main(ui/mpich/mpiexec.c:153):error解析参数 me @ wherever:/ mirror/GameOfLife $

+0

在引擎盖下,可能会使用产卵树。这意味着如果您有3个主机节点[0-2],node0将ssh node1,然后node0可能ssh node2,或node1可能ssh node2。底线,任何主机应该能够ssh任何主机 –

回答

0

这不是问题。 我期待着Slurm的可比性。几个事情几乎同时发生在一个特定的顺序。处理程序必须立即进行终端控制,以便主节点可以开始发送。 在我添加Slurm之前,hydra machinefile工作正常,但node0无法“抓住”键盘。 Slurm应该在哪里寻找等效文件? 我想知道如果我应该删除九头蛇。

+1

请避免使用答案评论你的问题或讨论。使用原始帖子的编辑,评论或聊天。 – Gasper

+0

您正在使用哪个MPI?你还可以发布你的'/ mirror/machinefile'的内容吗? –

+0

昨晚我看到Slurm在每台机器上都创建了一个用户帐户。机器文件没有什么特别之处,只是节点名称和CPU数量。 Hydra发现它。一次只发生许多事情。我使用KVM切换器来共享终端,鼠标和键盘。 Slurm没有按照我的预期使用。我今晚可以试试srun。但我已经知道munge引导只能回应到一台机器,而不是全部三台。几个星期前,我大部分时间都在工作 - 在添加KVM之前。 mpich较老,我故意这样做。它是3.0.1,我下载了它旁边的九头蛇。 –