深度学习(花书)学习笔记——第九章 卷积网络
内积和外积中的内积被通常认为时卷积,可交换性是因为他经过了翻转。但是神经网络中一般不应用翻转。而是直接使用互相关函数:
动机
三大特性:稀疏交互、参数共享、等变表示。
稀疏交互:核的大小远小于输入。相对于全连接,一个输入项只影响较少神经元,大大减少运算量。
参数共享:也叫绑定权重,每个核的权重不变,遍历整个输入。使我们只需要少量参数,
等变表示:卷积网络具有平移等变的性质。
池化
应用于卷积层和**层之后,调整输出。使其更容易运算并具有一定的平移不变性。并在一些需要处理不同大小的输入输出时很有用。
主要有:maxpool、averagepool、ROI池化,前两个就是取最大值和取均值,还有个取最多值的池化。特殊的是ROI池化,这里简单介绍一下:ROI:感兴趣区域
ROI池化:将不同大小的ROI池化为相同大小。步骤如下:
- 根据输入,将ROI映射到feature map上
- 根据输出块大小,将ROI区域划分为大小相近的块。比如输出是2*2,就划分为2*2块,每块大小相近
- 每块进行max pooling
卷积与池化作为一种无限强的先验
卷积:学得函数只包含局部连接关系并具有平移不变性。
池化:每个单元都具有对少量平移的不变性。
当先验不成立时不好用了就。
基本卷积函数的变体
padding方式:对最边缘的数据进行填充以保持大小不变性。主要三种方式:
- valid方式:不填充,最终输出图像m-k+1.
- same:填0保持输入输出大小不变。
- full:填0足够多,保持每个像素在每个方向被访问k次,最终输出图像看睹m+k-1.
平铺卷积:
。。。
结构化输出
意思就是能力强,可以输出各种类型吧。。举例是注意力模型。
数据类型
没看懂表述的意义,就是说卷积网络可以处理不同尺度的输入输出呗。。金字塔模型么比如。
高效的卷积算法
一个d维的核可以表示为d个向量的外积时,表示其可分离。可以使用分离后矩阵代替,大大降低参数量,提高预算速度。inception网络采用了此方式。
随机或无监督的特征
三种方式:
- 简单随机化特征核
- 人工设置,如sift特征,锐化特征等
- 使用无监督标准学习核。
已经不流行了,相对于监督训练可以提供一些正则化,允许我们训练更大的结构。
卷积网络的神经科学基础
V1:初级视觉皮层。卷积网络主要覆盖其三大特性:空间映射、简单细胞、复杂细胞。
主流卷积神经网络介绍:
Fast-RCNN