PBS保持放弃我的工作

问题描述：

我请求14个处理器从一个一个（每个都有32）所示：PBS保持放弃我的工作

#PBS -l nodes=1:ppn=14 

#PBS -l walltime=12:00:00

而且具有较低的ppn它几乎总是工作，但一旦我的数字高于14- ish，工作开始执行并立即终止。 tracejob是奇无益：

tracejob 14753.hpc2 

Job: 14753.hpc2 

01/21/2017 11:12:36 L Considering job to run 
01/21/2017 11:12:36 L Job run 
01/21/2017 11:12:36 M Resource_List.place = scatter 
01/21/2017 11:12:36 M make_cpuset, vnode hpc2[0]: hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this) 
01/21/2017 11:12:36 M start_exec, new_cpuset failed 
01/21/2017 11:12:36 M kill_job 
01/21/2017 11:12:36 M hpc2 cput= 0:00:00 mem=0kb 
01/21/2017 11:12:37 M Obit sent 
01/21/2017 11:12:37 M copy file request received 
01/21/2017 11:12:37 M staged 2 items out over 0:00:00 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:38 M no active tasks 
01/21/2017 11:12:38 M delete job request received

我有次成功要求更多的CPU，所以它不是完全确定。有没有一种方法来调试呢？

作为一个侧面节点，请求多个节点的任何作业永远都在队列中，永远不会启动，我不知道这是否相关。

您使用的是什么资源管理器和版本？调度程序的同样问题。 – clusterdude

答

您是否试图执行“qrun”并强行尝试在指定的vnode上启动此作业？

如果不是，您可以共享vnode hpc2 [0]的pbsnodes数据吗？

作为一种可能的解决方案，尝试重新启动你的妈妈或将共享设置为独占妈妈（当然，你需要是一个特权用户来做到这一点）。

PBS保持放弃我的工作

相关推荐