递归皮质网络RCN简单理解

参考:http://www.sohu.com/a/200969057_473283

           http://www.sohu.com/a/202047161_465975

RCN是什么?

RCN是条件随机场、概率图模型、动态规划技术的组合

基于哺乳动物(比如人)在识别物体的时候,大脑视觉皮层对于物体轮廓和表面的识别不一样,并且是协同工作的,提出递归皮质网络,这是一种整合了实验神经科学结论的概率生成模型,RCN在局部还会使用神经网络。

RCN中引入了视觉的概率生成模型,其中基于消息传递的推理以统一的方式处理识别、分割和推理,模型表现出优秀的泛化和遮挡推理能力,该模型基本打破了现代基于文本的验证码生成方案,即在没有具体验证码的启发式方法下分割目标,强调了数据效率和语意合成性等特性。

RCN是一个基于对象的模型,考虑到轮廓和曲面以及对象和背景的分离,对形状进行表征,并且横向连接的存在允许它跨越大的变换来池化而不失去特异性,从而增加其不变性。组合型允许RCN用多个对象来表示场景,但只需对单个对象进行明确的训练。

RCN的结构

RCN对物体轮廓和表面分别建模,表面使用条件随机场CRF,捕获表面性质的平滑度,轮廓使用特征组合的层级结构,轮廓和表面的因子使得模型能够以显著不同的外观识别物体形状,而不必对每种可能的形状和外观组合进行详尽训练。

RCN是上下文相关的概率语法图模型,更具体的说是概率与或图模型+侧连接,在RCN中有两种节点,即Feature node(即与节点AND node)和Pool node(即或节点OR node)。这里,与节点And node表示某个视觉概念的组成成分,比如可以用线段的组合去表示角,用四个角的组合去表示一个矩形;可以用多个小面去组合表示一个大面。这样我们就得到了一个层次化的语义结构(线段、角、形状等等)。或节点OR node表示同一语义的不同变化,比如一个边缘形状的内部形变和视角变换,一个面语义在不同纹理和尺度下的变换等等。同时,RCN还通过侧向连接来让不同高层语义之间去分享中低层的语义表达,比如“角”作为一个基本概念单元,可以被不同的物体边缘轮廓所共有。

池之间的横向连接提供了选择性,通过确保在一个池中的特征的选择,影响其连接到的池中的特征的选择,创建轮廓变化更平滑的样本。横向约束的灵活性是通过扰动因子来控制的,这是一个每级指定的超参数。通过多层特征集合,横向连接和组合,顶层的特征节点可以通过一定程度的平移、缩放不变性来识别对象。

模型可分为两个部分:学习和推理

学习即训练阶段——对单字符的学习

直到倒数第二级网络的特征和横向连接都是使用通过3D对象数据集进行无监督训练的,这些数据集是不可知的,只能作为轮廓图像呈现。由此产生的学习特征从较低层的简单线段到较高层的弯曲和拐角。

考虑部分的学习模型,其中在k级学习了新特征,其中已经学习并完成了k-1级的特征,并且已经在k级学习到了一些新特征。当提供训练图像时,第一步是利用k级的现有特征找到该图像轮廓的MAP说明。使用k-1级的特征来解析仍然无法解释的轮廓,并从其轮廓连续的连接中提出了新的特征。对于所有的训练图像,重复此过程对k级不同特征的使用的计数,并且通过优化平衡压缩和重建误差的目标函数来选择该级别的最终特征。

从输入图像的轮廓连通性中学习了指定池对之间连通性的横向图结构。在第一个合并阶段,具有与输入轮廓相邻的特征池相互连接。这个过程在层次结构中重复的重复,在较低阶别的图形中,从较高级别的邻接中推断出横向连接。

最上层的特征表示整个对象。这些是通过找到知道网络的倒数第二级的新对象的MAP配置来获得的,根据输入对象的轮廓连续性将倒数第二级连接池对,然后在倒数第二级存储**的连接作为最顶层的功能。

一旦下一级特征和横向连接的组合被训练,他们可以通过一些超参数来用于不同的域,根据图像和对象的大小选择PreProc中的滤镜缩放,并且设置横向连接的灵活性以匹配数据中的失真。此外,最低级别的特征具有“平滑参数”,其设置由于噪声而使边缘像素导通的概率的估计。该参数可以根据域中的噪声电平进行设置。

侧向连接在RCN前向传播和后向传播的作用:具有两级特征检测和池的RCN网络足以在字符分析任务中获得脚架的准确性。增加层级数目的效果是减少推理时间。

推理即测试阶段——对完整图片的预测

递归皮质网络RCN简单理解

 

图 RCN的推理算法。(A)(i) 通过前向传递,包括侧连接传递,生成字符假设。这里PreProc是一类Gabor算子,生成像素上的边界概率。(ii) 反向传递和侧连接传递从之前的假设中选取了“A”。(iii)“A”和“K”之间产生了一个错误的假设“K”,可以通过上下文解析消除错误假设。(iv)多个假设联合解释了图中的字母,包括对分离、遮挡的推理。(B)第二层上的特征学习。着色圆圈代表**的特征,虚线圆圈代表最终选取的特征。(C)从边缘的相邻结构中学习侧连接。

主要分为以下4个步骤完成:

①通过前向传递包括侧连接传递生成字符假设

②反向连接和侧连接传递从之前的假设中选择某个假设。

③通过上下文解析消除错误假设

④多个假设联合解释了图中的字母,包括对分离遮挡的推理。

RCN与神经科学的对比

在下表中,我们列出了神经科学观察资料的抽样,为我们的研究提供了灵感。

神经科学的观察

计算上的意义

RCN中的表征选择

轮廓表示和表面表征的因式分解:神经科学证据表明,轮廓和表面以大脑中的因子分解方式表示,这可能是为什么人们要想象一把由冰制成的椅子时是并不会很难。

这种因式分解,在二维或者三维的空间中对功能的建模是一个非常高效的方式

表面被建模为一个马尔科夫随机域,当轮廓的定位被中断时,能够保证平面提取的持续性

视觉皮层中侧面的连接:空间侧面连接是视觉皮层中最显要的特征

侧面被认为在轮廓持续性的增强上扮演着重要的角色。

关于不同特征之间的相对位置,在一个分层的损失信息中进行池化。

侧面连接提供了一个**这种相对限制的方法。

池化变量由因子连接,使得不同池化中所做的选择可以兼容。

自上而下基于对象的注意力机制:视觉皮层即使在高度重叠和透明的情况下也能分离对象的实例。这被称为自上而下的基于对象的注意。

神经科学家已经具体描述了层次结构的要求,以支持自上而下的注意力控制。

支持基于对象的注意力机制能力,要求处理对象的重叠,并且要求对象背景的因式分解和物体级别的组合。

对象级别至上而下的注意力机制是可能的,作为非负权重、侧面连接的结合,并且在模型中可以得到解释。

基于消息传递的近似推理(和学习):一些神经科学证据表明,大脑皮层正在使用消息传递式算法,并且它正在对生成模型本身进行推理,而不是使用辅助网络完成预先指定的命令。

对于概率图模型,信息传递算法有着巨大的潜力,面向近似推理作为一种计算上简单的机制。

请参见我们在使用面向特征学习的信息传递的研究。

许多表征类的选择,比如组合型、具体特征的侧面连接和权重稀疏性,也都被认为对于信息传递推理是有益的。