[paper]End-to-End Training of Hybrid CNN-CRF Models for Stereo
Pre-learning
- 隐马尔科夫模型
Y={y1,y2,...,yn} 是一组随机变量,X={x1,x2,...,xn} 是其观测变量,我们假设Y具有马尔科夫性,则X,Y的联合概率为P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)∏i=2nP(yi|yi−1)P(xi|yi)
为确定一个Hidden Markov Model,需要确定以下三组参数[A,B,π] - 状态转移概率
A=[aij]NxN 其中aij=P(yt+1=sj|yt=si),1≤i,j≤N
表示t时刻状态为si , t+1时刻状态为sj 的概率 - 输出观测概率
B - 初始状态概率
π
- 状态转移概率
- 马尔科夫随机场
- 团,极大团
- 在马尔科夫随机场中,多个变量之间的联合概率能基于团分解为多个因子的乘积,每个因子仅与一个团相关。
P(X)=1Z∏Q∈CψQ(XQ)
其中X={x1,x2,...,xn} 是n个随机变量,其所有团构成集合C,与团Q∈C 对应的变量集合记为XQ
-
- 条件随机场
马尔科夫随机场希望预测的是联合概率P(X,Y,O)
而条件随机场希望预测条件概率P(Y|X,O)
马尔科夫随机场是生成模型,而条件随机场是判别模型。
4.
Notation_paper
Contribution
- Proposed hybrid CNN+CRF model for stereo match
- Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
- Using only shallow CNN and without post-processing, the model performs very well in benchmark.
这是我们用来做stere match的模型结构。首先对左图中每个像素,我们用UnaryCNN 对其对应的image pairs
Unary CNN
这里用3-7层,每层100个filters的CNN网络,对输入图片进行特征计算,其中第一层的filter size为3x3,其它层为2x2。同时我们用tanh作为**函数,而不是用RELU,一方面tanh比较好训练,不需要插入复杂的BN层,其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 证明tanh比RELU更适合Patch Match的任务。
Correlation
这一步,我们通过以下公式计算分别从左右图中获取的特征
其中
这里的
CRF
CRF model:
其中,
unary 损失项
pair-wise 损失项则为
其中,
Inference
直接求解上面的CRF模型是非常困难的,但是我们可以用一些算法求近似解。
Let
The DUAL_MM of (#eq:3)