0_2_3-卷积层的反向传播-多通道、无padding、步长不为1

a) $l$ 代表网络的第 $l$ 层, $z^{l}$ 代表第 $l$ 层卷积， $z_{d, i, j}^{l}$ 代表第 $l$ 层卷积第 $d$ 通道 $(i, j)$ 位置的值; $z^{l}$ 的通道数为 $C^{l}$ , 高度和宽度分别为 $H^{l}, {\hat{W}}^{l}$ ( $避免与权重相同$ )

b) $W^{l - 1}, b^{l - 1}$ 代表连接第 $l - 1$ 层和第 $l$ 层的卷积核权重和偏置; 卷积核的维度为 $(k_{1}^{l - 1}, k_{2}^{l - 1})$ ; 卷积核的步长为 $(s_{1}^{l - 1}, s_{2}^{l - 1})$ 。

c) 记损失函数L关于第 $l$ 层卷积的输出 $z^{l}$ 的偏导为 $δ^{l} = \frac{\partial L}{\partial z^{l}} (3)$

前向传播

根据以上约定，卷积核权重 $W^{l - 1} \in R^{k_{1}^{l - 1} \times k_{2}^{l - 1} \times C^{l - 1} \times C^{l}}$ ,偏置 $b^{l - 1} \in R^{C^{l}}$ ,每个输出通道一个偏置。则有第 $l$ 层卷积层,第 $d$ 个通道输出为:

\begin{aligned} (4) & z_{d, i, j}^{l} = \sum_{c = 1}^{C^{l - 1}} \sum_{m = 0}^{k_{1}^{l - 1} - 1} \sum_{n = 0}^{k_{2}^{l - 1} - 1} W_{m, n, c, d}^{l - 1} z_{c, i \cdot s_{1}^{l - 1} + m, j \cdot s_{2}^{l - 1} + n}^{l - 1} + b_{d}^{l - 1} & i \in [0, H^{l} - 1], j \in [0, {\hat{W}}^{l} - 1] \end{aligned}

其中： $H^{l} = (H^{l - 1} - k_{1}^{l - 1}) / s_{1}^{l - 1} + 1; {\hat{W}}^{l} = ({\hat{W}}^{l - 1} - k_{2}^{l - 1}) / s_{2}^{l - 1} + 1$ ;

反向传播

权重梯度

a) 首先来看损失函数 $L$ 关于第 $l - 1$ 层权重 $W^{l - 1}$ 和偏置 $b^{l - 1}$ 的梯度：

\begin{aligned} (1) & \frac{\partial L}{\partial W_{m, n, c, d}^{l - 1}} = \sum_{i} \sum_{j} \frac{\partial L}{\partial z_{d, i, j}^{l}} * \frac{\partial z_{d, i, j}^{l}}{\partial W_{m, n, c, d}^{l - 1}} & / / l 层 的 d 通 道 每 个 神 经 元 都 有 梯 度 传 给 权 重 W_{m, n, c, d}^{l - 1} \\ (2) & = \sum_{i} \sum_{j} δ_{d, i, j}^{l} * \frac{\partial (\sum_{c = 1}^{C^{l - 1}} \sum_{m = 0}^{k_{1}^{l - 1} - 1} \sum_{n = 0}^{k_{2}^{l - 1} - 1} W_{m, n, c, d}^{l - 1} z_{c, i \cdot s_{1}^{l - 1} + m, j \cdot s_{2}^{l - 1} + n}^{l - 1} + b_{d}^{l - 1})}{\partial W_{m, n, c, d}^{l - 1}} \\ (5) & = \sum_{i} \sum_{j} δ_{d, i, j}^{l} * z_{c, i \cdot s_{1}^{l - 1} + m, j \cdot s_{2}^{l - 1} + n}^{l - 1} \end{aligned}

对比公式(5)和单通道中公式(4),可以发现,损失函数 $L$ 关于第 $l - 1$ 层权重 $W_{:, : c, d}^{l - 1}$ 梯度就是以 $δ^{l_{p a d d i n g}}$ (后面会说明它的含义) 为卷积核在 $z_{c}^{l - 1}$ 上做卷积的结果(这里没有偏置项),单通道对单通道的卷积。

b) 损失函数 $L$ 关于第 $l - 1$ 层偏置 $b^{l - 1}$ 的梯度同

\begin{aligned} (6) & \frac{\partial L}{\partial b_{d}^{l - 1}} = \sum_{i} \sum_{j} δ_{d, i, j}^{l} \end{aligned}

l-1层梯度

直接从公式推导损失函数关于第 $l - 1$ 层输出的偏导比较难，我们参考转置卷积论文A guide to convolution arithmetic for deep learning 知识，我们以另外一种方式证明; 对于如下的图,上一层为输入的卷积层( $5 \times 5$ ) ，用( $3 \times 3$ ) 的卷积核以步长为2,做卷积得到下一层卷积大小为 $2 \times 2$ (图中蓝色的点)。如果我们将输出卷积的每行和每列之间填充步长减一的行列，行列的元素全为0。记卷积层 $z^{l}$ 使用这种零填充后的卷积层为 $z^{l_{p a d d i n g}}$ 。那么前向过程其实就相当于卷积核，在输入卷积上以不为1的步长卷积后的结果就是 $z^{l_{p a d d i n g}}$ 。

0_2_3-卷积层的反向传播-多通道、无padding、步长不为1

那么反向过程也是一样，相当于翻转后的卷积在相同零填充的 $δ^{l}$ 上左卷积的结果，设 $δ^{l_{p a d d i n g}}$ 为 $δ^{l}$ 的行列分别填充 $(s_{1}^{l - 1} - 1, s_{2}^{l - 1} - 1)$ 行列零元素后的梯度矩阵。则根据多通道中的公式(8) 有

\begin{matrix} (8) & δ_{c, i, j}^{l - 1} = \sum_{d = 1}^{C^{l}} \sum_{m = 0}^{k_{1}^{l - 1} - 1} \sum_{n = 0}^{k_{2}^{l - 1} - 1} r o t_{180^{\circ}} W_{m, n, c, d}^{l - 1} p δ_{d, i + m, j + n}^{l_{p a d d i n g}} \end{matrix}

其中 $p δ_{d, i, j}^{l_{p a d d i n g}}$ 是 $δ^{l}$ 在行列直接插入 $(s_{1}^{l - 1} - 1, s_{2}^{l - 1} - 1)$ 行列零元素后(即 $δ^{l_{p a d d i n g}}$ )，再在元素外围填充高度和宽度为 $(k_{1}^{l - 1} - 1, k_{2}^{l - 1} - 1)$ 的零元素后的梯度矩阵。

参考

a) A guide to convolution arithmetic for deep learning

0_2_3-卷积层的反向传播-多通道、无padding、步长不为1

numpy实现神经网络系列

依赖知识

约定说明

前向传播

反向传播

权重梯度

l-1层梯度

参考

相关推荐