Esxi\CentOS7.6虚机\2080ti驱动 Unable to determine the device handle for GPU 0000:0B:00:00: Unknown ERROR
整体背景
服务器使用Esxi虚拟出CentOS7.6的虚机,然后在虚机中给2080ti显卡安装驱动
安装过程
1.配置显卡直通
此部分由运维完成,未参与其中,可参考攻略:https://blog.51cto.com/ganmu/1964823
2.更新基于长期维护的4.4版本linux内核(主流5.5也可):
(1)内核和依赖包下载地址:https://elrepo.org/linux/kernel/el7/x86_64/RPMS/
kernel-lt-4.4.216-1.el7.elrepo.x86_64.rpm
kernel-lt-headers-4.4.216-1.el7.elrepo.x86_64.rpm
kernel-lt-devel-4.4.216-1.el7.elrepo.x86_64.rpm
(2)安装内核:
(3)查看可用内核
(4)切换已安装内核
(5)更新Kernel-lt-headers
(6)更新Kernel-lt-devel
(7)安装headers、devel的过程中若遇到冲突问题,则卸载已安装的文件,再重新安装。重启虚机:reboot
(8)安装和更新gcc、dkms
yum -y install gcc dkms
(9)安装驱动
Sh NVIDIA-Linux-x86_64-440.36.run --kernel-source-path=/usr/src/kernels/4.4.216-1.el7.elrepo.x86_64 --no-opengl-files (4.4.216-1.el7.elrepo.x86_64为linux源码包位置,默认在/usr/src/kernel下)
(10)显示驱动安装完成
(11)查看驱动信息:
!!!报错:Unable to determine the device handle for GPU 0000:0B:00:00: Unknown Error
原因
配置完显卡直通后,虚拟机在安装完显卡驱动后仍然找不到显卡位置。
解决方法:
在GPU所在虚机的配置文件(vmx)中添加以下字段和字段值:
hypervisor.cpuid.v0 = “FALSE”
通过配置此字段,显卡不在“知道”自己是否在虚机中,会配合虚机的驱动。
重启虚机即可,不需要重新安装驱动。
再次nvidia-smi,有了