基于置信加权池的全卷积保证颜色恒常性
基于patch的CNN网络会因为patch包含的信息不足,无法确定一个唯一的颜色或者范围。在此提出一个基于全卷积网络结构,其中patch可以携带用于估计颜色恒定的置信度权值。权重在一个独特的(novel)pool层中学习和应用,在该层中局部估计被合并到全局解中。用了该公式网络话就知道在数据集中要学习什么并且如何pool而不需要额外的监督。还允许端到端的训练。
网络结构
网络生成的特征图(4维度)被传递到加权池层,从局部到全局进行聚合,生成之前所说的颜色恒定性估计。我们强制前三个通道表示每个对应patch估计出的颜色元组p ̂_i=g(R_i ),最后一个通道表示对最终全局估计的置信度c_i=c(R_i )
然而,由于颜色恒常性问题的性质,最优模型至少受到两个重要性质的约束:
(1)网络应该能够提取足够的语义特征来区分模糊的patches(如无纹理的墙壁)以进行照明估计;
(2)网络不应该是照明不变的,但它应该对不同的灯光颜色敏感。
如我们所见,第二个要求违反了在分类任务训练网络中嵌入的知识,因为照明条件不应影响对象的类别。不幸的是,具有较强语义信息提取能力的网络通常对光照条件的变化也不敏感,这意味着提取的特征对光照颜色具有不变性。为了在上述两个特性之间找到一个很好的平衡,我们尝试了不同的网络配置。我们尝试了一个去掉conv4和/或conv5的较浅版本的AlexNet,发现性能变差,可能是由于语义特征提取能力不足。此外,我们还尝试了conv6的其他核大小,包括1×1、3×3和10×10,但是发现6×6,即AlexNet经过卷积层后的原始输出大小,得到了最好的结果。为了减小模型尺寸,我们用挤压网[25]v1.1进行了实验,发现它也能带来良好的效果。
权重池化层
当c(Ri)=1等于1时,就是一种特殊情况。在我们的网络中,由于FCN的结构,卷积操作在同一个图像中的patch之间共享,而对于基于patch的cnn,每个patch需要依次通过同一个网络。也存在其他的池方法,例如完全连接池或最大池;但是,它们要么缺乏灵活性(即需要特定的输入图像大小),要么已经被证明对于颜色恒定性估计不是非常有效。根据[38],中值池做得更好,因为它可以防止异常值直接影响全局估计,但在很大一部分估计是噪声的情况下,它并不能完全消除它们的影响。此外,即使我们将其合并到端到端的训练管道中,每次损失也只能反向传播到图像中的单个(中值)面片,忽略面片之间的成对依赖关系。
数学分析
在估计值p ̂_i 中,方向是一致的,但是大小由权值ci来决定。这个置信度可以作为mask来减少我们学习到的噪声。
直观地说,只要局部估计有助于全局估计更接近地面真实,网络就增加了相应的置信度。否则,置信度就会降低。这正是学习置信度的方法。
总结
该方法是需要真实光照值和图片来进行训练的。我自己读的就是作者通过分割图片,然后通过网络得出四个通道的值,用最后一个通道的值去乘前三个通道,再求和得出真实图像。但是这里还是有很多问题不是很明白:
1.最后的求和真的是最后一个通道去分别乘前三个通道再相加吗?
2.CNN网络在目标探测时是不希望对亮度敏感的。那么用CNN是不是无法完成亮度调整。
今天的学习都没学明白,啥也不是,散会。