Non-local 理解
Non-local和谷歌的all is attention 如出一辙。
也可能是反着,all is attention和non-local如出一辙。
看的重点是THWxTHW这个矩阵,直接暴力所有可能性。
因此公式1+公式3+公式6就是Figure2。换句话说Figure2表示f()函数采取Embedded Gaussian且添加了residual connection的计算图。数据流是这样的:输入x的维度是THW1024,然后分别用数量为512,尺寸为111的卷积核进行卷积得到3条支路的输出,维度都是THW512,然后经过flat和trans操作得到THW512、512THW和THW512的输出,前两条支路的两个输出进行矩阵乘法得到THWTHW的输出,经过softmax处理后再和第三条支路的输出做矩阵乘法得到THW512维度的输出,将该输出reshape成THW512维度的输出后经过卷积核数量为1024,尺寸为111的卷积层并和原来的THW*1024做element-wise sum得到最后的输出结果,这个element-wise sum就是ResNet网络中的residual connection。