Nvidia-Docker及Redtail初步使用

为解决虚拟机中无法使用GPU的问题,英伟达开源了适配docker容器技术的nvidia-docker框架。其主要构架如下图所示:
Nvidia-Docker及Redtail初步使用
这篇文章主要记录安装及使用redtail过程中踩到的坑,可能会不定期更新。

nvidia-docker及redtail安装

nvidia-docker安装

默认安装nvidia-docker2版本,这个版本安装没什么问题。
如果需要安装nvidia-docker1版本,在验证是否安装成功的时候,官网上的验证语句会报错

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

将其改为如下语句即可

docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi

redtail安装

首先我按照redtail项目介绍中的方法进行安装

$ sudo ./build_redtail_image.sh TensorRT-3.0.4.Ubuntu-16.04.3.x86_64.cuda-9.0.cudnn7.0.tar.gz

发现有问题,镜像生成失败。

Collecting px4tools
  Downloading https://files.pythonhosted.org/packages/bc/95/bdd2577e99e03a991d7eb5e507c746a624914dc4b0f0feb6623a0956a81e/px4tools-0.9.6.tar.gz (42kB)
Collecting control>=0.7.0 (from px4tools)
  Downloading https://files.pythonhosted.org/packages/89/6b/5ab127da1f93d8f12d108194b0ae4d245c77b97aa57ac01e9200a70d15b9/control-0.8.0.tar.gz (165kB)
Collecting matplotlib>=2.2.2 (from px4tools)
  Downloading https://files.pythonhosted.org/packages/ec/06/def4fb2620cbe671ba0cb6462cbd8653fbffa4acd87d6d572659e7c71c13/matplotlib-3.0.0.tar.gz (36.3MB)
    Complete output from command python setup.py egg_info:
    
    Matplotlib 3.0+ does not support Python 2.x, 3.0, 3.1, 3.2, 3.3, or 3.4.
    Beginning with Matplotlib 3.0, Python 3.5 and above is required.
    
    This may be due to an out of date pip.
    
    Make sure you have pip >= 9.0.1.

这个问题是px4tools依赖matplotlib,自动下载matplotlib时会下载最新的3.0版本,而该版本的matplotlib只支持Python3.5+,电脑自带的是Python2.7,所以镜像制作失败。

我首先想到的方法是在Dockerfile.kinetic镜像制作脚本中加入

pip install --upgrade pip

自动更新pip,但这样写之后,出现如下错误:

raceback (most recent call last):
  File "/usr/bin/pip", line 9, in <module>
    from pip import main
ImportError: cannot import name 'main'

这个问题感觉没办法解决,尝试另外的思路----指定matplotlib版本
在脚本中加入

pip install 'matplotlib==2.2.2' --force-reinstall

并将TensorRT从3.0,改为4.0. 终于成功制作镜像。