PBS保持放弃我的工作
问题描述:
我请求14个处理器从一个一个(每个都有32)所示:PBS保持放弃我的工作
#PBS -l nodes=1:ppn=14
#PBS -l walltime=12:00:00
而且具有较低的ppn
它几乎总是工作,但一旦我的数字高于14- ish,工作开始执行并立即终止。 tracejob
是奇无益:
tracejob 14753.hpc2
Job: 14753.hpc2
01/21/2017 11:12:36 L Considering job to run
01/21/2017 11:12:36 L Job run
01/21/2017 11:12:36 M Resource_List.place = scatter
01/21/2017 11:12:36 M make_cpuset, vnode hpc2[0]: hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this)
01/21/2017 11:12:36 M start_exec, new_cpuset failed
01/21/2017 11:12:36 M kill_job
01/21/2017 11:12:36 M hpc2 cput= 0:00:00 mem=0kb
01/21/2017 11:12:37 M Obit sent
01/21/2017 11:12:37 M copy file request received
01/21/2017 11:12:37 M staged 2 items out over 0:00:00
01/21/2017 11:12:37 M delete job request received
01/21/2017 11:12:37 M delete job request received
01/21/2017 11:12:38 M no active tasks
01/21/2017 11:12:38 M delete job request received
我有次成功要求更多的CPU,所以它不是完全确定。有没有一种方法来调试呢?
作为一个侧面节点,请求多个节点的任何作业永远都在队列中,永远不会启动,我不知道这是否相关。
答
您是否试图执行“qrun”并强行尝试在指定的vnode上启动此作业?
如果不是,您可以共享vnode hpc2 [0]的pbsnodes数据吗?
作为一种可能的解决方案,尝试重新启动你的妈妈或将共享设置为独占妈妈(当然,你需要是一个特权用户来做到这一点)。
您使用的是什么资源管理器和版本?调度程序的同样问题。 – clusterdude