基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

在本文中，讨论了RTX 2080 Ti与其他GPU相比的深度学习性能。我们使用RTX 2080 Ti来训练ResNet-50，ResNet-152，Inception v3，Inception v4，VGG-16，AlexNet和SSD300。我们在训练每个网络时测量每秒处理的图像数。

注意事项：

RTX 2080 Ti-FP32 TensorFlow性能（1 GPU）

对于神经网络的FP32训练，RTX 2080 Ti是...

由训练期间每秒处理的＃张图像来衡量。

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

RTX 2080 Ti-FP16 TensorFlow性能（1 GPU）

RTX 2080 Ti用于神经网络的FP16训练。

由训练期间每秒处理的＃张图像来衡量。

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

FP32多GPU扩展性能（1、2、4、8个GPU）

对于每种GPU类型（RTX 2080 Ti，RTX 2080等），我们在训练每个神经网络上的1、2、4和8个GPU时的性能，然后取平均结果。下图提供了有关在FP32中对神经网络进行多GPU训练期间每个GPU如何缩放的指南。RTX 2080 Ti的缩放比例如下：

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

RTX 2080 Ti-FP16和FP32

使用FP16可以减少训练时间并支持更大的批次大小/模型，而不会显着影响训练模型的准确性。与FP32相比，RTX 2080 Ti上的FP16训练是...

通过训练期间每秒处理的图像数来衡量。这样可以平均提高+ 44.6％。

警告：如果您是机器学习的新手，或者只是测试代码，我们建议使用FP32。将精度降低到FP16可能会干扰收敛。

GPU价格

方法

对于每个模型，我们进行了10次训练实验，并测量了每秒处理的图像数量；然后，我们将10个实验的结果取平均值。
对于每个GPU /神经网络组合，我们使用了适合内存的最大批处理大小。例如，在ResNet-50上，V100的批处理大小为192；RTX 2080 Ti使用的批处理大小为64。
我们使用合成数据而非真实数据来最大程度地减少与GPU不相关的瓶颈
使用模型级并行性进行了多GPU训练

硬件

软件

在您自己的机器上运行基准测试

步骤1：克隆基准存储库

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

步骤2：运行基准测试

cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

步骤3：报告结果

./report.sh <cpu>-<gpu>.logs num_iterations

原始基准数据

FP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)

FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)

给大家介绍一下租用GPU做实验的方法，我们是在智星云租用的GPU，使用体验很好。具体大家可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

参考文献：