【英特尔杯比赛】记在DevCloud上训练模型出现的一系列问题与解决方案
写这篇博客的目的是帮助以后参加英特尔杯软件创新大赛的学弟学妹少走弯路:)
情况一:
qsub myjob.txt时出现如下情况:qsub: script is written in DOS/Windows text format
查了很多网上的内容,只有一种方法可以,竟然它说这种DOS/windows的格式不行,那么我就将这个文件转换成Unix文件
需要安装一个dos2unix的指令“pip install dos2unix”
情况二:
执行了上面的语句“pip install dos2unix”,却出现了如下问题:
Could not install packages due to an EnvironmentError: [Errno 30] Read-only file system: '/glob/intel-python/versions/2019u3/intelpython3/lib/python3.6/site-packages/h5py-2.9.0.dist-info'
Please use "pip install --user <package>" to install user packages.
Please visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy
解决方法:
假如说我要安装dos2unix库,那么我输入“pip install --user dos2unix”就OK了
情况三:
安装完成,那么我来试一试
明明安装成功了,却说这个指令不存在,我也没懂什么意思。所以继续找其他方法,直到遇到以下:
安装,打开后选择你的文件myjob.txt,手动将它转换成unix,操作方法如下:
如此文件转换完成,在myjob.txt的相同目录生成了一个myjob.txt.bak文件,将他上传到devcloud相应训练目录即可
情况四:
再试一试“qsub myjob.txt.bak”,似乎是成功了
可是“qstat”查看计算结点状态,并没有返回信息,说明已经输出完毕,但是怎么可能一下子就训练完了?所以肯定出错了
打开myjob.txt.bak.e815
发现:
也就是最简单的包没引入的问题,但是现在在devcloud上,怎么解决?
很简单,在PUTTY上输入“pip install --user tensorflow” 问题解决。
情况五:
好了,如果你在运行上面的安装包语句的时候,出现了一下错误:
Process exceeded login node resource limit.
Please run jobs on compute nodes using qsub or start an interactive shell using qsub -I.
Please see README.txt or visit the forums at: https://forums.intel.com/s/topic/0TO0P00000018NNWAY/intel-ai-academy
说明你是在登录节点上运行的,此时已经超出了登录结点的内存,需要你在计算结点上运行
解决方法:运行 "qsub -I"语句,出现如下内容:
然后继续安装就可以了,图上的安装语法是错的,正确的是“pip install --user tensorflow”
问题解决
如果后续仍有异常将继续更新,也欢迎大家跟我一起讨论遇到的问题,如有一些错误也欢迎指正~