PBS/扭矩无法最终确定计算结果

  • 本文关键字:计算 结果 PBS ssh pbs torque
  • 更新时间 :
  • 英文 :


我已经在Ubuntu Machine上安装了扭矩(这是服务器和唯一的节点(。而且似乎工作正常,除了最终确定部分。

工作结束时,我得到了类似

的东西
PBS Job Id: 17.ubuntu-server
Job Name:   dm.job
Exec host:  ubuntu-server/0
An error has occurred processing your job, see below.
Post job file processing error; job 17.ubuntu-server on host ubuntu-server/0
Unable to copy file /var/spool/torque/spool/17.ubuntu-server.OU to user@ubuntu-server:/home/user/test/dm.job.o17
*** error from copy
Permission denied (publickey,password).
lost connection
*** end error output
Output retained on that host in: /var/spool/torque/undelivered/17.ubuntu-server.OU
Unable to copy file /var/spool/torque/spool/17.ubuntu-server.ER to user@ubuntu-server:/home/user/test/dm.job.e17
*** error from copy
Permission denied (publickey,password).
lost connection
*** end error output
Output retained on that host in: /var/spool/torque/undelivered/17.ubuntu-server.ER

我了解,问题是使用SSH键的身份验证。它试图将某些文件转到工作文件夹,但SSH权限是错误的。我将自己的 id_rsa.pub放入 authorized_keys(还有root's(,但仍然没有运气。

所以几个问题与:

  1. 在哪些用户作业下运行?我想,如果我写qsub dm.job,它将在用户下运行。因此,如果我能够从user@ubuntu-serveruser@ubuntu-server(我是(,那么工作输出SCP'ING(仍然是(应该没有问题。如果是执行作业的root用户,则需要如何正确设置SSH凭据和密钥?

  2. 如何修复此权限错误?

和略微离子,但相关。为什么几个脚本名称不可识别?例如,我可以写

> julia -v
julia version 0.6.0

既有根和我自己。但是当我在工作中跑来时,它会记录

/var/spool/torque/mom_priv/jobs/18.ubuntu-server.SC: line 5: julia: command not found

作业未从您的提交节点运行;它将被分配给一个计算节点进行执行,因此该文件从该计算节点scp'eed到您提交的节点。您可以通过运行qstat -f | grep exec_host检查作业运行的位置。前面应该有一些看起来像主机名 index的东西,之后可能会有一些东西。第一个主机名是作业执行的位置(除非您在cray上,在这种情况下是第二个主机名(。

最新更新