论文翻译:Neural conditional random felds

文章地址2010年

Abstract

      我们提出了一个结构化预测的非线性图形模型。它结合了深度神经网络的强大功能,以马尔可夫网络的图形框架提取高级特征,产生了一个强大的可扩展的概率模型,我们将其应用于信号标记任务。

1. Introduction

      本文考虑了结构化预测任务,建立一个系统,给定(结构化)输入,预测结构化输出。它是生物信息学,词性标注,信息提取,信号(如语音)标注和识别等许多应用领域的通用框架。我们将重点放在信号和序列标记任务上,如语音和笔迹等信号。
      数十年来,隐马尔可夫模型(HMM)一直是处理顺序数据(例如用于分割和分类)的最普遍的方法。他们依赖于强大的独立性假设,并使用最大似然估计来学习,这是一个非判别准则。后一点来源于这样一个事实,即HMM是生成模型,它们定义了关于观察序列X和相关标签序列Y的联合概率分布。
      判别系统通常比生成模型更强大,更直接关注如何最小化错误率。 许多研究侧重于为HMM开发鉴别训练,例如最小分类误差(Juang&Katagiri,1992年)、Perceptron学习(Collins,2002年)、最大互信息(MMI)(Woodland&Povey,2002年)或最近的大幅度方法(Sha&索尔,2007年;Do&Arties,2009年)。
      更直接的方法是设计一个区分性的图形模型,模拟条件分布P(Y | X),而不是像生成模型那样对联合概率进行建模(Mccallum et al。,2000; Lafferty,2001)。条件随机场(CRF)是这种方法的典型例子。最大边缘马尔科夫网络(M3N)(Taskar等,2004)进一步关注判别函数(定义为马尔可夫网络中潜在函数的对数),并扩展用于结构化预测的SVM学习算法。在使用完全不同的学习算法时,M3N基于与CRF相同的图形建模,并且可以被视为CRF的一个实例。基于对数线性势函数的CRF被广泛用于序列数据,如自然语言处理或生物序列(Altun 等,2003; Sato&Sakakibara,2005)。然而,具有对数线性势的CRF只有在利用内核的非线性模型时才能达到适中的性能(Taskar等,2004)。虽然有可能在CRF中使用内核(Lafferty等,2004),但获得的密集的最优解决方案在实践中通常是效率低下的。不过,众所周知,内核机器的可扩展性较差。
      此外,近年来,深层神经结构已经被提出作为从数据中提取高级特征的相关解决方案(Hinton等,2006; Bengio等,2006)。这些模型首先成功应用于图像(Hinton等,2006),然后是运动标题数据(Taylor等,2007)和文本数据。在这些领域中,深层架构显示出很强的能力来发现和提取相关特征作为线性判别系统的输入。
      这项工作引入了由条件随机场与(深层)神经网络(NN)联合而成的神经条件随机场。这个想法是依靠深度神经网络来学习相关的高级特征,然后可以将其用作线性CRF的输入。我们进一步提出这样一个全局性架构,我们称之为NeuroCRF,可以在全局范围内通过判别准则进行训练。当然,使用深度神经网络作为特征提取器使得学习成为非凸优化问题。这防止依赖有效的凸优化器算法。然而最近有不少研究人员指出,任何代价的凸性并不总是一个好主意。人们必须寻求建模灵活性和优化简便性之间的最佳平衡(LeCun等,1998; Collobert等,2006; Bengio&LeCun,2007)。
Related Work 以前的一些工作已经成功地设计了用于结构预测的神经网络系统。例如,图形变换网络(Bottou等,1997)已经应用于复杂的校验读取系统,该系统在字符级使用卷积网络。(Graves等人,2006)使用神经网络输出(S形单元)作为条件概率的递归神经网络用于手写和语音识别。Collobert和他的同事们在特征发现的深层信念网络的成功的推动下,研究了深度学习在文本数据信息提取中的应用(Qi et al。,2009)。这些作品之间的一个共同点是,作者提出了机制来使NN适用于结构化预测任务,而不是本文研究的全局概率框架。最近,(彭等人,2009)也调查CRFs和神经网络的并行工作的组合。我们的方法在使用深层架构和反向传播方面是不同的,它适用于一般的损失函数。

2. NEURAL CONDITIONAL RANDOM FIELDS

      在本节中,我们提出了一个用于结构化预测的非线性图形模型。 我们从具有任何图形结构的通用框架开始。 然后我们专注于序列标记的线性链模型。

2.1条件随机场

      结构化输出预测的目标是建立一个模型,准确预测任何输入x的结构化输出y。 输出Y = {Yi}是一组预测的随机变量,其分量属于一组标签L,并通过由无向图G =(V,E)编码的条件依赖关联起来,其中集团c∈C。给定x, 推理即寻找使条件概率p(y | x)最大化的输出。 根据Hammersley-Clifford定理,CRF定义了以下条件概率:
论文翻译:Neural conditional random felds
其中Z(x)是全局归一化因子。 势函数的一般选择是能量Ec的指数函数:
论文翻译:Neural conditional random felds
为了方便学习,标准设置是使用参数向量论文翻译:Neural conditional random felds和特征向量Φc(x)的线性能量函数
论文翻译:Neural conditional random felds
这导致了对数线性模型(Lafferty,2001)。 线性能量函数本质上限制了CRF。    我们提出神经CRFs,用神经网络计算的非线性能量函数来代替上述的线性能量函数。

2.2 神经条件随机场

      神经条件随机场是NN和CRF的组合。 它们通过在输入和能量函数之间放置NN结构来扩展CRF。 下面详细描述图1中可视化的这个神经网络。
论文翻译:Neural conditional random felds
神经网络将观测作为输入,输出许多量,​​我们称之为能量输出论文翻译:Neural conditional random felds。神经网络具有多个隐藏层,非线性隐藏单元和具有线性输出单元(即线性**函数)的输出层。在这种情况下,神经CRF可以被看作是一个标准的对数线性CRF,工作在由神经网络计算的高层表示上。在本文的剩余部分中,我们称之为NeuroCRF的CRF部分的顶部(输出层权重),在论文的其余部分中,我们将神经CRF的顶部部分(输出层权重)称为CRF-part,其余部分称为deep-part(见图2-右)。 令Wnn和论文翻译:Neural conditional random felds分别为deep-part和CRF-part的神经网络权重。神经CRF将条件概率实现为: 
      论文翻译:Neural conditional random felds论文翻译:Neural conditional random felds(符号太多,就不翻译了= =)
      神经CRF中的推理包括找出与输入x最匹配的y冒号。分两步。首先用输入x和前向信息给NN提供计算所有能量输出Ec(x,yc,w)。在第二步中,使用动态规划来找到能量最低的输出y冒号。
论文翻译:Neural conditional random felds

共享权重网络架构。 NN可以使用各种体系结构。 对于每个能量函数,可以使用不同的NN,这可能导致过度拟合和高计算成本。 相反,当我们提出上面的神经CRF时,可以分享权重来计算每个团的高级表示(以及相应的能量输出)(图2左)。 或者可以选择计算输入的共享高级表示,从中计算出所有的能量输出(图2右)。 在后一种情况下,神经CRF实现条件概率为:
论文翻译:Neural conditional random felds

5. conclusion

      为了充分利用深层网络提取高层特征的能力和CRF对序列标记任务的判别能力,提出了一种结合CRF和深度神经网络的模型。 OCR数据的结果显示了相对于现有技术方法的显着改进并证明了组合的相关性。 在较大规模的语音识别任务中,我们的系统胜过大多数现有技术的判别系统,相对于依赖于以非判别准则获得的初始解决方案的所有其他系统,我们的系统不依赖任何先验概率。