论文翻译:Neural conditional random felds
文章地址2010年
Abstract
我们提出了一个结构化预测的非线性图形模型。它结合了深度神经网络的强大功能,以马尔可夫网络的图形框架提取高级特征,产生了一个强大的可扩展的概率模型,我们将其应用于信号标记任务。
1. Introduction
本文考虑了结构化预测任务,建立一个系统,给定(结构化)输入,预测结构化输出。它是生物信息学,词性标注,信息提取,信号(如语音)标注和识别等许多应用领域的通用框架。我们将重点放在信号和序列标记任务上,如语音和笔迹等信号。
数十年来,隐马尔可夫模型(HMM)一直是处理顺序数据(例如用于分割和分类)的最普遍的方法。他们依赖于强大的独立性假设,并使用最大似然估计来学习,这是一个非判别准则。后一点来源于这样一个事实,即HMM是生成模型,它们定义了关于观察序列X和相关标签序列Y的联合概率分布。
判别系统通常比生成模型更强大,更直接关注如何最小化错误率。 许多研究侧重于为HMM开发鉴别训练,例如最小分类误差(Juang&Katagiri,1992年)、Perceptron学习(Collins,2002年)、最大互信息(MMI)(Woodland&Povey,2002年)或最近的大幅度方法(Sha&索尔,2007年;Do&Arties,2009年)。
更直接的方法是设计一个区分性的图形模型,模拟条件分布P(Y | X),而不是像生成模型那样对联合概率进行建模(Mccallum et al。,2000; Lafferty,2001)。条件随机场(CRF)是这种方法的典型例子。最大边缘马尔科夫网络(M3N)(Taskar等,2004)进一步关注判别函数(定义为马尔可夫网络中潜在函数的对数),并扩展用于结构化预测的SVM学习算法。在使用完全不同的学习算法时,M3N基于与CRF相同的图形建模,并且可以被视为CRF的一个实例。基于对数线性势函数的CRF被广泛用于序列数据,如自然语言处理或生物序列(Altun
等,2003; Sato&Sakakibara,2005)。然而,具有对数线性势的CRF只有在利用内核的非线性模型时才能达到适中的性能(Taskar等,2004)。虽然有可能在CRF中使用内核(Lafferty等,2004),但获得的密集的最优解决方案在实践中通常是效率低下的。不过,众所周知,内核机器的可扩展性较差。
此外,近年来,深层神经结构已经被提出作为从数据中提取高级特征的相关解决方案(Hinton等,2006; Bengio等,2006)。这些模型首先成功应用于图像(Hinton等,2006),然后是运动标题数据(Taylor等,2007)和文本数据。在这些领域中,深层架构显示出很强的能力来发现和提取相关特征作为线性判别系统的输入。
这项工作引入了由条件随机场与(深层)神经网络(NN)联合而成的神经条件随机场。这个想法是依靠深度神经网络来学习相关的高级特征,然后可以将其用作线性CRF的输入。我们进一步提出这样一个全局性架构,我们称之为NeuroCRF,可以在全局范围内通过判别准则进行训练。当然,使用深度神经网络作为特征提取器使得学习成为非凸优化问题。这防止依赖有效的凸优化器算法。然而最近有不少研究人员指出,任何代价的凸性并不总是一个好主意。人们必须寻求建模灵活性和优化简便性之间的最佳平衡(LeCun等,1998; Collobert等,2006;
Bengio&LeCun,2007)。
Related Work 以前的一些工作已经成功地设计了用于结构预测的神经网络系统。例如,图形变换网络(Bottou等,1997)已经应用于复杂的校验读取系统,该系统在字符级使用卷积网络。(Graves等人,2006)使用神经网络输出(S形单元)作为条件概率的递归神经网络用于手写和语音识别。Collobert和他的同事们在特征发现的深层信念网络的成功的推动下,研究了深度学习在文本数据信息提取中的应用(Qi
et al。,2009)。这些作品之间的一个共同点是,作者提出了机制来使NN适用于结构化预测任务,而不是本文研究的全局概率框架。最近,(彭等人,2009)也调查CRFs和神经网络的并行工作的组合。我们的方法在使用深层架构和反向传播方面是不同的,它适用于一般的损失函数。
2. NEURAL CONDITIONAL RANDOM FIELDS
在本节中,我们提出了一个用于结构化预测的非线性图形模型。 我们从具有任何图形结构的通用框架开始。 然后我们专注于序列标记的线性链模型。