SLURM控制器无法连接工作器,状态设置为UNKNOWN



我正在尝试设置一个小型集群,使用SLURM管理。控制器同时也是计算节点。/etc/slurm/slurm.conf中的配置为:

NodeName=controller,node[01-02] RealMemory=250000 Sockets=1 CoresPerSocket=32 ThreadsPerCore=2 State=UNKNOWN
PartitionName=compute Nodes=ALL Default=YES MaxTime=INFINITE State=UP

运行sinfo时,我得到:

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2   unk* node[01-02]
compute*     up   infinite      1   idle controller

然而,当在每个节点上运行slurmd -C时,我得到:

NodeName=node01 CPUs=64 Boards=1 SocketsPerBoard=1 CoresPerSocket=32 ThreadsPerCore=2 RealMemory=257655
UpTime=0-00:30:44

另一个节点也一样。我允许在所有机器上使用端口68176818(默认的slurm端口)(对于TCP—我假设它是协议)。我还检查了/etc/slurm/slurm.conf/etc/slurm/slurmdbd.conf是相同的,以及munge键(这是有效的)。

是否有调试连接到给定的机器?

提前感谢您的帮助。

我检查了日志文件,发现连接被阻塞了。集群使用Fedora,因此我使用以下链接将每台机器添加到防火墙可信列表中—centos 7中的白名单源ip地址

这些更新的防火墙设置似乎没有立即应用,所以我不得不重新启动所有的机器,现在SLURM工作正常。

相关内容

  • 没有找到相关文章

最新更新