在 Slurm 中提交的作业未出现在队列中,未被安排



我正在尝试创建自己的计算机集群(也许是贝奥武夫,尽管随意抛出这个词显然并不酷(并安装了 Slurm 作为我的调度程序。输入sinfo后一切似乎都很好

danny@danny5:~/Cluster/test$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug*       up   infinite      5   idle danny[1-5]
danny@danny5:~/Cluster/test$ 

但是,如果我尝试使用以下脚本提交作业

danny@danny5:~/Cluster/test$ cat script.sh
#!/bin/bash -l
#SBATCH --job-name=JOBNUMBA0NE
#SBATCH --time=00-00:01:00
#SBATCH --partition=debug
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=100
#SBATCH -o stdout
#SBATCH -e stderr
#SBATCH --mail-type=END
#SBATCH --mail-user=dkweiss@wesleyan.edu
gfortran -O3 -i8 0-hc1.f
./a.out

我收到了一个可爱的Submitted batch job 6,但是squeue中没有出现任何内容,并且没有实现预期的输出文件(可执行文件a.out文件甚至没有出现(。我将附上scontrol show partition的相关信息:

danny@danny5:~/Cluster/test$ scontrol show partition
PartitionName=debug
AllocNodes=ALL AllowGroups=ALL Default=YES
DefaultTime=NONE DisableRootJobs=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 MaxCPUsPerNode=UNLIMITED
Nodes=danny[1-5]
Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF
State=UP TotalCPUs=8 TotalNodes=5 SelectTypeParameters=N/A
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

有什么想法吗?

我遇到了同样的问题,我想可能有更多的原因导致工作在没有任何反馈的情况下消失,但就我而言,slurm 只是错过了特权。因此:

  1. 尝试使用sudo运行sbatch,如果成功,这可能是同一个问题。
  2. 如果您无法尝试,请至少手动定义输出和错误文件路径,并确保 slurm 能够写入那里。

当日志文件夹不存在(事先未创建(时,我就发生这种情况。Slurm 不会自动为您处理目录创建

我已经看到当用户提交作业(此处danny(时的行为在计算节点上不存在相同的 UID。确保id danny所有与 Slurm 相关的节点上报告相同的输出。应在计算节点的 slurm 日志文件中查找确认。