slurmd:错误:在查看所有文件时找不到 cgroup/v2 的指定插件名称



在我的计算节点上启动slurmd服务时遇到问题

×slurmd.service-Slurm节点守护进程

已加载:已加载(/usr/lib/systemd/system/slurmd.service;已启用;供应商预设:已禁用(活动:自美国东部时间2022-10-12星期三04:10:25起失败(结果:退出代码(;7秒前进程:5839 ExecStart=/usr/sbin/slurmd-D-s$slurmd_OPTIONS(代码=已退出,状态=1/FAILURE(主PID:5839(代码=已退出,状态=1/故障(CPU:3ms10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:已启动Slurm节点守护进程。10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slumd.service:主进程已退出,代码=已退出,状态=1/失败10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:失败,结果为"退出代码"。

#slurmd-D-vvslumd:debug:日志文件已重新打开slumd:debug:CCPU:1个板:1个套接字:1个内核PerSocket:1个线程PerCore:1slurmd:error:在查看所有文件时,找不到指定的cgroup/v2插件名称slurmd:error:找不到cgroup/v2的cgroup插件slurmd:error:无法为cgroup/v2创建cgroup上下文slurmd:错误:无法初始化cgroup插件slurmd:错误:slurmd初始化失败

我错过了什么

我也遇到了同样的问题。Slurm同时支持cgroup/v1和v2,但只有在存在dbus开发文件的情况下才编译对v2的支持。因此,首先安装dbus-devel

dnf install dbus-devel

然后运行一个干净的Slurm构建。

您可能需要在您的slurm-config目录中手动创建cgroup.confhttps://stackoverflow.com/a/65226055/5749775

我通过创建一个相当简单的conf:来解决这个问题

# /etc/slurm-llnl/cgroup.conf
CgroupAutomount=yes
# CgroupReleaseAgentDir="/etc/slurm/cgroup"
ConstrainCores=yes
ConstrainDevices=yes
# TaskAffinity=yes
ConstrainRAMSpace=yes
# ConstrainSwapSpace=yes
MaxRAMPercent=98
AllowedSwapSpace=0
AllowedRAMSpace=100
MemorySwappiness=0

最新更新