CentOS服务器深度学习框架搭配版本匹配问题

在CentOS系统搭建深度学习框架时,常常会遇到版本不匹配的问题,这里专门以Tensorflow为例,作以记录:

  • Tensorflow版本与CUDA&CUDNN之间的版本适配问题
    • 参考链接
    • 下载安装对应版本的Tensorflow&CUDA&CUDNN
      • 服务器通常因为各个用户所使用的Tensorflow等版本不同的原因,需要安装多个CUDA版本,一个可行的方案是安装多个版本的CUDA到/usr/local/文件夹下面,其中CUDA文件夹为链接文件,同时安装对应CUDA版本的CUDNN到各自CUDA文件夹中。
      • 需要使用不同版本的CUDA时,将CUDA文件夹链接到不同版本的CUDA文件夹中即可:软链接命令:ln -s
      • 另一种方案是编辑环境变量使之指向所使用的CUDA文件夹
        • 例如针对每个用户编辑:vim ~./bashrc
          • export PATH="$PATH:/usr/local/cuda-8.0-5.1/bin"
          • export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0-5.1/lib64/"
          • export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda-8.0-5.1/lib64"
  • CUDA版本与GCC&G++之间版本适配问题
    在使用nvcc命令,调用GCC&G++编译器编译一些文件时,常常会存在因为CUDA版本与GCC版本不匹配导致出现的编译Error,这时需要升级或降级GCC&G++版本以适配对应的CUDA版本
    • 查询现有GCC版本:rpm -qa | grep gcc
      rpm为Red Hat所有的包管理工具
    • 查询当前使用的GCC版本:gcc --version or gcc -v
    • 使用源码编译安装:比较费事费力
    • 使用库管理工具安装
      • Ubuntu
        • 安装与CUDA对应版本的GCC&G++版本
          CentOS服务器深度学习框架搭配版本匹配问题
          这里创建了软链接到CUDA文件夹中,而不破坏系统原有的GCC&G++(使用update-alternatives命令在Ubuntu系统级更改链接文件,再使用update-alternatives --config修改配置)
      • CentOS7
        CentOS下无法使用apt命令,也无法直接使用yum install命令直接安装对应版本的GCC&G++,可以使用SCL(Software Collections)进行管安装管理。SCL的创建就是为了给CentOS用户提供一种以方便、安全地安装和使用应用程序和运行时环境的多个(而且可能是更新的)版本的方式,同时避免把系统搞乱,缺点是只支持64位把版本的系统。
        • 安装SCL:yum install centos-release-scl
        • 通过SCL安装GCC&G++:yum install devtoolset-6-gcc devtoolset-6-gcc-c++
        • 常用命令
          • 对当前Shell启用某一版本的GCC&G++:scl enable devtoolset-6 bash;如果要长期使用该本版本的话:echo "source /opt/rh/devtoolset-6/enable" >>/etc/profile;切换版本时,可以:scl enable devtoolset-4 bash
          • 查看从SCL安装的包的列表:scl --list/-l
          • 列出SCL可用源:yum list all --enablerepo='centos-sclo-rh'
          • 退出scl-bash:exit
          • scl --help/-h