我正在尝试设置一个小型集群,使用SLURM管理。控制器同时也是计算节点。/etc/slurm/slurm.conf
中的配置为:
NodeName=controller,node[01-02] RealMemory=250000 Sockets=1 CoresPerSocket=32 ThreadsPerCore=2 State=UNKNOWN
PartitionName=compute Nodes=ALL Default=YES MaxTime=INFINITE State=UP
运行sinfo
时,我得到:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 2 unk* node[01-02]
compute* up infinite 1 idle controller
然而,当在每个节点上运行slurmd -C
时,我得到:
NodeName=node01 CPUs=64 Boards=1 SocketsPerBoard=1 CoresPerSocket=32 ThreadsPerCore=2 RealMemory=257655
UpTime=0-00:30:44
另一个节点也一样。我允许在所有机器上使用端口6817
和6818
(默认的slurm端口)(对于TCP—我假设它是协议)。我还检查了/etc/slurm/slurm.conf
和/etc/slurm/slurmdbd.conf
是相同的,以及munge键(这是有效的)。
是否有调试连接到给定的机器?
提前感谢您的帮助。
我检查了日志文件,发现连接被阻塞了。集群使用Fedora,因此我使用以下链接将每台机器添加到防火墙可信列表中—centos 7中的白名单源ip地址
这些更新的防火墙设置似乎没有立即应用,所以我不得不重新启动所有的机器,现在SLURM工作正常。