将SLURM作业发送到远程连接的群集时出现问题



我正在创建一个SLURM多集群设置,内部部署有一个slurmdbd-MariaDB数据库,Oracle云中有一些slurmctld,用于接收来自内部部署集群的作业。到目前为止,我已经将云中的slumctld连接到数据库。它们出现在";sacctmgr列表集群";我可以接收他们的信息,并从内部部署slumctld中删除他们队列中的作业。但是,我无法将作业从内部部署集群发送到这些云集群。当我尝试使用-M或-M all向其他集群提交作业时,它们会在内部部署队列上运行。云集群能够运行使用sbatch直接提交给它们的作业。

提交作业时出现错误。应该接收作业的是集群的/var/log/slurmctld.log:

[2022-03-17T19:15:41.046] Registering slurmctld at port 6817 with slurmdbd <IP_ADDRESS>:<PORT>
[2022-03-17T19:15:41.046] error: slurmdbd: Sending message type DBD_REGISTER_CTLD: 11: Resource temporarily unavailable
[2022-03-17T19:15:46.046] error: g_slurm_auth_pack: protocol_version 6500 not supported
[2022-03-17T19:15:46.046] error: slurm_send_node_msg: authentication: No error
[2022-03-17T19:15:46.046] error: slurm_persist_conn_open: failed to send persistent connection init message to <IP_ADDRESS>:<PORT>

我确认了IP地址和端口是正确的,并连接到了slurmdbd,但其余的是什么意思?我找不到任何文档,这个问题过去似乎也没有出现在其他论坛上。我应该做些什么才能真正将作业发送到这些集群?

我也遇到了同样的问题,只是相反:我无法将作业发送到我的OCI Slurm实例。

对我来说,问题是:OCI Slurm是一个20.11的slurmdbd,而我的内部slurmctld是21.08。问题是,slurmdbd必须与slurmctld(最多3个版本(和其他二进制文件的版本相同或更新。请参阅此处的幻灯片(升级部分(。

升级OCI Slurm实例后,我可以双向提交。

最新更新