配置MPI节点通信时出现问题



我已经在一台机器的/scratch/sharatds目录下安装了mpich1和UPC(该目录挂载在NFS上)。

然而,当我最初尝试运行它时,它在一台机器(lagrid02)上运行得很好。

当我尝试将其他机器(lagrid02-09)也包含在循环中时,它抛出错误。

rm_3521:  p4_error: rm_start: net_conn_to_listener failed: 36394
p0_30647:  p4_error: Child process exited while making connection to remote process on lagrid03: 0
p0_30647: (38.617188) net_send: could not write to fd=4, errno = 32

如果你有一个想法,哪里出了问题,你能给我一些建议吗?

这是一个系统管理问题,不是编程问题。

first - mpich_1_?真的吗?Mpich1自2005年以来就没有更新过;我强烈建议使用mpich2。你不会发现很多人愿意在mpich1问题上提供帮助或支持。

至于跨节点的特定错误消息,MPI可能在节点之间通信遇到困难的原因有几个:您是否有无密码的ssh设置,以便您可以从lagrid02 ssh到lagrid03?不同的机器上是否有防火墙?>

最新更新