为什么Torque qsub不创建输出文件? [英] Why Torque qsub don't create output file?

查看:415
本文介绍了为什么Torque qsub不创建输出文件?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我尝试使用命令通过Torque PBS在群集上启动任务

I trying start task on cluster via Torque PBS with command

qsub -o a.txt a.sh

文件a.sh包含单个字符串:

File a.sh contain single string:

hostname

在命令qsub之后,我执行qstat命令,给出下一个输出:

After command qsub I make qstat command, that give next output:

Job ID                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
302937.voms               a.sh             user            00:00:00 E long

5秒后,命令qstat返回空输出(队列中没有作业). 命令

After 5 seconds command qstat return empty output (no jobs in queue). Command

qsub --version

提供输出:版本:2.5.13

give output: version: 2.5.13

命令

which qsub

输出:/usr/bin/qsub

Output: /usr/bin/qsub

问题是未创建文件a.txt(来自命令qsub -o a.txt a.sh)!在终端中仅返回作业ID,没有任何错误.命令

The problem is that the file a.txt (from command qsub -o a.txt a.sh) is not created! In the terminal returned only job id, there is not any errors. Command

 qsub a.sh

具有相同的行为.我该如何解决? qsub日志文件哪里有错误?

has the same behavior. How I can fix it? Where is qsub log files with errors?

如果我使用命令

qsub -l nodes=node36:ppn=1 -o a.txt a.sh

然后在文件夹中找到输出文件

then output files I can find in folder

/var/spool/pbs/undelivered

在node36上

(在ssh登录之后). 输出文件包含字符串"node36",错误文件为空. 为什么我的文件未送达"?

on node36 (after ssh login on it). Output file contain string "node36", error file is empty. Why my files is "undelivered"?

推荐答案

输出日志和错误日志文件保存在后台打印目录中的执行节点上,并在作业完成后复制回头节点.假脱机目录的位置可能有所不同.但是你应该找它 在下面 /var/torque/spool在已分配作业的节点列表中的第一个节点上.

The output log and error log files are kept on the execution node in a spool directory and copied back to the head node after the job has completed. The location of the spool directory may vary. But you should look for it under /var/torque/spool on the first node from the list of nodes the job has been allocated.

有多种原因可能会导致扭矩无法传递输出文件.

There are multiple reasons that might cause torque to fail to deliver the output files.

  1. 提交作业的用户可能不在该节点上,或者可能无法访问其主目录,或者集群的节点之间存在用户ID不匹配.
  2. Torque正在使用ssh将文件复制到根节点,但是尚未在所有节点上一致地设置用于用户ssh跨群集的无密码公共密钥身份验证.
  3. 节点在作业执行期间失败.

此列表绝不完整.在Stack Overflow上已经可以找到许多有关此类故障的问题.尝试检查以上情况是否适用于您的情况.

This list is by no means complete. Already here on Stack Overflow one can find a number of questions dealing with such a failure. Try to check if any of the above applies to your case.

这篇关于为什么Torque qsub不创建输出文件?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆