首先,我有keypairs,虽然涉及到ssh,但这不是一个密码问题。runtime-lamboot建议我自动化ssh - Ubuntu
我也有MPICH,Hydra,SLURM和lamd ...这是一个集群计算问题。
Node0将启动,但node1挂起。我已经有这个问题好几天了。我的nfs镜像工作的很好,我可以在node2上的8个核心上运行Game of ...这真的很酷,只是问我一下吧...
但是,当我想要在所有三个节点我一起点击来自每个节点的密码请求,因为node0使用ssh发送进程。同样,不是密码问题,HYDRA(slurm和lamd也是)希望从node1获得我的用户密码。基本上我的登录凭证。我可以将其更改为MPICHuser帐户;然而,困境仍将存在。
除非我在所有三个没有密码的节点上创建MPICHusers ......可以这样做吗?这似乎是安全风险的缩影。
所以问题是,无论何时以不会挂起lamboot的方式弹出密码凭证,我是否可以自动执行密码凭证?
现在已经很晚了,看着我有什么让我想知道如果slurm是新的罪魁祸首。
这里是多了还是少了什么我在看:
我@何:/镜像/ GameOfLife $ mpiexec.hydra -f /镜像/ machinefile -n 10 ./life 10 10 30
[@ mpiexec的地方] HYDU_process_mfile_token(utils的/ ARGS/args.c:296):在这个时候,不支持令牌NODE0
[@ mpiexec的地方] HYDU_parse_hostfile(utils的/ ARGS/args.c:343):无法处理代币
[mpiexec @ wherever] mfile_fn(ui/mpich/utils.c:336):error pa rsing HOSTFILE
[@ mpiexec的地方] match_arg(utils的/ ARGS/args.c:152):匹配处理程序返回错误
[@ mpiexec的地方] HYDU_parse_array(utils的/ ARGS/args.c:174):参数匹配返回错误
[@ mpiexec的地方] parse_args(UI/MPICH/utils.c:1596):错误解析输入数组
[@ mpiexec的地方] HYD_uii_mpx_get_parameters(UI/MPICH/utils.c:1648 ):无法解析用户参数
[mpiexec @ wherev er] main(ui/mpich/mpiexec.c:153):error解析参数 me @ wherever:/ mirror/GameOfLife $
在引擎盖下,可能会使用产卵树。这意味着如果您有3个主机节点[0-2],node0将ssh node1,然后node0可能ssh node2,或node1可能ssh node2。底线,任何主机应该能够ssh任何主机 –