Confidence Inference for Focused Learning in Stereo Matching 论文笔记
论文地址:https://arxiv.org/pdf/1809.09758.pdf
这篇文章讨论了一种在立体匹配中无监督的置信推断的方法。(所谓的无监督,不是不存在视差图的groundtruth,而是不存在confidence map的groundturth。确实有点奇怪。)DNN在深度估计中已经达到了前沿的效果,但是,通常很难判断训练的模型是做出合理的预测还是随意猜测。
作者从立体匹配中L1的概率解释出发,本质上,L1正则化先验分布是拉普拉斯分布,所以L1损失是拉普拉斯分布的独立同分布(i.i.d)。在引进新的深度置信图的同时,放松对同分布假设的要求。直觉上,拉普拉斯分布的方差对于低置信度的像素很大,而对于高置信度的像素偏小。在实验中,网络学习着衰减低置信度的像素,而关注高置信度的像素。在实验中发现,聚焦学习(focused learning)对于训练更好的收敛状态,减少过拟合很有效。
Introduction
理解置信水平对于深度学习来说往往是困难的。通常很难判断训练的模型是做出合理的预测还是随意猜测。但随着机器学习领域的发展,对这个问题的研究逐渐从小数据集开始发展到现实生活中。并应用于很多任务。
如果没有置信水平,我们往往会认为预测结果都是准确的,而有时候这种错误会有很严重的代价。
本文的成果:
1,提出了一个置信推断模型并且不需要置信标签,且这个推断置信有物理意义,可以推广到decision-making或者后处理任务中。
2,我们表明,通过新引入的置信度,相同的拉普拉斯分布假设被放松(方差不固定)。特别地,拉普拉斯分布的方差对于低置信度像素而言是大的,而对于高置信度像素而言小
3.我们从实验中观察到,所提出的方法非常有助于找到训练模型的更好的收敛状态,减少给定数据集上的过拟合。
3.1广义的置信的定义
1.对于正确的区域,置信度应该高,对于错误区域,置信度应该低。
2.置信度值在[0,1]范围内
3.2概率解释
我们已知:L1正则化先验分布是拉普拉斯分布。https://www.cnblogs.com/heguanyou/p/7688344.html
所以对于L1 loss等,用相似的推导方法,我们可以得出Loss1的内在本质是独立同分布的拉普拉斯分布。
下面是简单的推导:
令x = {x1,x2,…,xN}为网络的输入
y = {y1,y2,…,yN}为预测视差图
N为输入中的像素数图片
w是模型参数
通过最大似然估计
同时假设观察到的视差值满足相同分布的拉普拉斯分布,且参数w是相互独立的且满足均值为0方差为1 的拉普拉斯分布:
将这两个代入(1)中,我们可以得到
其中$是一个超参数,同时用1/N限制loss的范围。损失函数可以定义为:
可以获得拉普拉斯分布和L1损失函数之间的关系。
3.3 置信学习
假设置信图为c={c_1, c_2, …,c_N},$,因为已经放宽了对独立同分布的假设,所以对每个像素都能有不同的方差b。由定义已知:高置信度对于正确的区域,低置信度对应错误区域。作者假设在错误区域,对应点的拉普拉斯分布的方差较大,反之,在正确区域,对应点的拉普拉斯分布较小。
这种假设是合理的:在正确区域,我们认为y_i集中在正确的区域附近,所以方差较小。而对于错误区域,y_i的分布难于预测,所以方差很可能较大。
作者为了模型的简单,将方差b作为c的线性函数:
其中k和a为正常数,a>=k+1,从而保证b>=1.基于这个前提,我们可以将似然方程改为如下表示:
我们当然应当认为是一个非降的分布,对应的物理意义就是置信度越大的像素越多。作者简单用一个指数分布表示:且
这样将公式联立,取负的log似然估计,可以得到:
同样的用1/N规范损失函数,新的损失函数如下所示:
19)和(7)比较有两个关键点的不同:
1)当a=k+1时,对于高置信度的像素,loss(17)变化不大。而对于低置信度的像素loss会衰减。loss的第一项会更关注高置信度的像素。
2)对于置信正则项,会惩罚低置信度的像素。这个也和的取值相关。
3.4对loss的讨论
通过改变讨论正确区域和错误区域,
当gamma=0,1时。红色线表示错误区域,蓝色线表示正确区域。
通过曲线可以获取一些信息,在这里不赘述。
实验结果: