Share:高性能深度学习支持引擎实战——TensorRT

This artical introduce TensorRT :
https://developer.aliyun.com/article/580307

总结一下推断（Inference）和训练（Training）的不同：

推断（Inference）的网络权值已经固定下来，无后向传播过程，因此可以

1）模型固定，可以对计算图进行优化

输入输出大小固定，可以做memory优化（注意：有一个概念是fine-tuning，即训练好的模型继续调优，只是在已有的模型做小的改动，本质上仍然是训练（Training）的过程，TensorRT没有fine-tuning

推断（Inference）的batch size要小很多，仍然是latency的问题，因为如果batch size很大，吞吐可以达到很大，比如每秒可以处理1024个batch，500毫秒处理完，吞吐可以达到2048，可以很好地利用GPU；但是推断（Inference）不能做500毫秒处理，可以是8或者16，吞吐降低，没有办法很好地利用GPU.
推断（Inference）可以使用低精度的技术，训练的时候因为要保证前后向传播，每次梯度的更新是很微小的，这个时候需要相对较高的精度，一般来说需要float型，如FP32，32位的浮点型来处理数据，但是在推断（Inference）的时候，对精度的要求没有那么高，很多研究表明可以用低精度，如半长（16）的float型，即FP16，也可以用8位的整型（INT8）来做推断（Inference），研究结果表明没有特别大的精度损失，尤其对CNN。更有甚者，对Binary（二进制）的使用也处在研究过程中，即权值只有0和1。目前FP16和INT8的研究使用相对来说比较成熟。低精度计算的好处是一方面可以减少计算量，原来计算32位的单元处理FP16的时候，理论上可以达到两倍的速度，处理INT8的时候理论上可以达到四倍的速度。当然会引入一些其他额外的操作，后面的讲解中会详细介绍FP18和INT8；另一方面是模型需要的空间减少，不管是权值的存储还是中间值的存储，应用更低的精度，模型大小会相应减小。

介绍一下TensorRT的流程，首先输入是一个预先训练好的FP32的模型和网络，将模型通过parser等方式输入到TensorRT中，TensorRT可以生成一个Serialization，也就是说将输入串流到内存或文件中，形成一个优化好的engine，执行的时候可以调取它来执行推断（Inference）。

Share:高性能深度学习支持引擎实战——TensorRT
TensorRT的使用的基本流图

上图所示TensorRT整个过程可以分三个步骤，即模型的解析（Parser），Engine优化和执行（Execution）。暂时抛开TensorRT，如果让大家从头写一个深度学习模型的前向过程，具体过程应该是

首先实现NN的layer，如卷积的实现，pooling的实现。
管理memory，数据在各层之间如何流动。
推断（Inference）的engine来调用各层的实现。
模型解析后，engine会进行优化。得到优化好的engine可以序列化到内存（buffer）或文件（file），读的时候需要反序列化，将其变成engine以供使用。然后在执行的时候创建context，主要是分配预先的资源，engine加context就可以做推断（Inference）。

Reference:
pytorch经onnx转tensorrt初体验（上）

Share:高性能深度学习支持引擎实战——TensorRT

相关推荐