【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

原文: https://blog.heuritech.com/2016/04/15/knowledge-extraction-from-unstructured-texts/


前言

从互联网上公开表达的人的信息中可以获得不合理的信息量。 在Heuritech,我们使用这些信息来更好地了解人们的需求,他们喜欢哪些产品以及为什么。 这篇文章从科学角度解释了什么是知识提取,并详细介绍了一些最新的方法。

什么是知识提取?

高度结构化的数据库可以很容易推理并用于推断。 例如在WikiDataYAGO中 ,实体被隔离并且与关系链接在一起。 然而,大多数人类的知识表达形式都是非结构化的文本,从中很难推理和获得智慧。 考虑这里的例子:

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

左侧的原始文本以非结构化的方式包含大量有用的信息,例如生日,国籍,活动等。 提取这些信息对应于自然语言处理中的一个具有挑战性的领域,其可能需要句子解析(将自然语言映射到机器可解释的表示),实体检测和多参考解析来聚合关于同一实体的信息。例如,通过能够执行问题回答任务的意愿来指导知识提取:在结构化的知识库中,可以进行查询,然后获取所需的信息。 另一个应用是通过在提取的知识图中找到路径来执行任意复杂的推理。 在知识提取中,人们可以对超实体感兴趣,其中实体包含在其他实体中,并且人们也可以对关系提取感兴趣。

这篇博文的目的是回顾从原始文本或从已有的知识图谱中获取和提取结构化信息的方法。更确切地说,我们旨在语义解析文本以提取实体和/或关系。 我们在句子中将三元组定义为两个实体e1e2之间的关系r :( e1,r,e2 )。 知识图 (KG)表示绘制图的三元组的集合:顶点是实体并且边是关系。 以下大多数文章都假定实体被识别和消歧。 实际上,这可以使用FACTORIE或斯坦福NER解析器等工具来实现。

知识图完成:链接预测

尽管在Heuritech,我们更感兴趣的是从原始文本中提取知识,但我们首先快速回顾一下仅依赖KG的技术(不提供额外的文本语料库)。 我们要执行的任务是填写一个不完整的KG。 在2013年之前,链接充满了图论理论技术,忽略了我们的图是KG的事实。

Bordes等人翻译用于建模多关系数据嵌入 。 在2013年是KG完成专用方法的第一次尝试。 它学习实体和关系在同一个低维向量空间中的嵌入。 目标函数是这样的,它约束实体e2接近e1 + r 。 这个做完了【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS给现有的三元组赋予更高的分数,而不是使用负抽样获得的随机三元组。 上述模型被称为TransE ,这项工作与Mikolov的工作有关,其中概念之间的关系在嵌入空间中自然采用翻译形式,如图所示。

然后增加了一些改进,让TransHTransR模型成为例子。 最先进的技术由通过深度学习:神经关联模型进行概率推理 。

从原始文本中提取三元组

我们专注于从原始文本中提取三元组( e1,r,e2 )。 根据所使用的监督类型,这项任务有几种不同的形式。

三元组提取可以以纯粹无监督的方式完成 。 通常首先用几个工具(如TreeBank解析器,MiniPar或OpenNLP解析器)分析文本,然后对实体之间的文本(以及解析器中的注释)进行聚类并最终简化。 尽管第一眼看起来很有吸引力,因为不需要监督,但有一些缺点。 首先,它需要很多繁琐的工作来手工制定依赖于所使用的解析器的规则。 而且,所发现的集群包含语义上相关的关系,但它们不会给我们带来细粒度的影响。 通常,集群可能包含«is-capital-of»和«is-city-of»,它们是语义上的封闭关系。 然而,通过无监督的方法,我们将不会发现«is-capital-of»意味着关系«is-city-of»而不是相反。

我们将更多地关注其他类型的监督: 监督学习 , 远程监督普遍模式 。 我们首先给出一些定义。 固定模式关系提取意味着要找到的关系处于可能关系的固定列表中。 相反,在开放域关系抽取中,关系不受约束。 在这种情况下,如果不是完全合适的话,就没有固定模式会限制知识提取。 然而,在用开放域关系构建的图中推广和推断新关系要困难得多,因为与各种风格有很多关系。 OpenIE (开放信息抽取)是一种对实体间原始文本进行过滤和规范化以获得开放域关系的工具。

基于模式的监督式学习

在这种情况下,可用数据是一个句子集合,每个句子用从中提取的三元组进行注释。 这意味着原始文本与文本的KG一致。 最近两篇论文(均发表于2016年)为这一问题提供了尖端的解决方案。

在序列和树结构上使用LSTM进行端到端关系抽取 Miwa和Bansal的文章展示了一种使用两个堆叠网络的方法:用于实体检测的双向LSTM (它创建实体的嵌入)和基于树的LSTM用于检测链接找到的实体的关系。 原始纸张的下图显示了使用的架构。

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

他们的方法在原始文本上使用POS标记 ,该原始文本提供了与双字原始文本一起馈入双向LSTM的附加信息。 这种方法的优势在于端到端,因为模型共同学习检测实体和关系。架构非常沉重,作者使用许多技巧来进行培训(如时间表采样实体预培训 )。 这些技巧显着提高了训练模型的性能。 此方法优于ACE04和ACE05数据集上的关系抽取任务以及SemEval-2010任务8开发集的关系分类方面的最新技术结果。 超过80%的实体和60%的关系可以被发现。

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

语言到逻辑形式的神经注意由董和拉帕塔描述了序列到序列模型。 它将原始语句作为输入(不需要POS标记)并输出所需的信息。 在我们的例子中,所需的信息是三元组( e1 , r , e2 ),但原始纸张的模型不限于这种特殊情况。 该模型是编码器 - 解码器架构。 更确切地说,LSTM单元分布在两个堆叠层中,并且使用了关注机制( 有关注意机制的更多细节,请参阅我们的其他博客文章 )。 关注机制可以学习自然语言表达式和固定模式关系之间的软对齐。 在后处理步骤中处理罕见的单词和数字:在训练过程中,他们在罕见单词标记或数字标记以及唯一标识中被屏蔽。 推断时,令牌+ ID由单词或数字的真实值代替。 这个技巧恰巧可以避免有太大的字典。 实验结果达到了最新的结果,有时甚至超过它们。 请注意,这些实验并不是专门针对三元组提取的,因此我们无法将此方法与Miwa和Bansal的模型进行比较。

关系抽取的监督式学习与端到端方法很好地结合(在第二篇文章的情况下,他们甚至不需要POS标记)。 然而,这种学习受限于标签数据的数量,而网络上的原始文本几乎是无限的。

基于模式的远程监督

远程监督也称为弱监督 ,即我们希望从文本中提取关系,并且初始KG可用作三重提取任务的种子。 我们认为,一对实体由连接两个实体中的两个KG的每个关系弱监督 。 当然,这种监督是非常嘈杂的,例如,“巴拉克奥巴马比米歇尔奥巴马大3岁”这句话将被(巴拉克奥巴马,结婚,米歇尔奥巴马)与KG(和米歇尔奥巴马结婚)所有其他情况都将奥巴马与他的妻子联系在一起),但这两种关系明显不同。 如果我们有很多文本和一个足够大的KG(与文本中的实体具有相同的实体),我们可以学习从KG的原始文本到固定模式关系的映射。

将语言和知识库与用于关系提取嵌入模型连接起来 ,Weston,Bordes等人。 (2013年)是一个远程监督模式。 它假定实体被发现并消除歧义,实体之间的文本使用OpenIE工具以开放域关系转换。 实体和关系的嵌入是在同一个低维空间中创建的。 openIE文本到固定模式的最可能关系的映射是通过对openIE文本的嵌入和固定模式的关系的相似性度量来计算的。 该系统受到排名损失的培训(如此处所述)。 给定一个openIE关系,这个想法是给一对弱标签配对分配一个较高的分数,而不是一个带有随机关系的KB(负向采样)。 文章更进一步:一旦从文本中提取三元组,模型就会学习实体和关系的嵌入。在该嵌入中,我们希望关系r对应于从e1e2的翻译。 这种嵌入不仅可以使用找到的三元组创建,也可以与原始KG的所有可用三元组一起创建。

在上面介绍的所有例子中,所发现的关系都在最初提出的固定模式中。 然而,正如前面提到的那样,不存在固定模式,它完全适合文本在两个实体之间可能表达的所有可能的关系。

通用模式

通用模式通过嵌入种子KG(固定模式关系)和包含在语料库中的开放域关系的关系来构建KG。 通用模式的一大优点是它不需要远程监督。 通过学习嵌入来为实体和关系构建语义空间。 固定模式关系的嵌入对于开放域关系是相同的:关于这两种关系的推论成为可能,并且可以改进KG完成。

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

第一篇介绍通用模式的文章是Riedel等人的关系抽取与矩阵分解和通用模式 。 在本文中,Open-domain关系是使用OpenIE工具计算的。 然后创建一个二进制矩阵,其中行对应于实体和列的对,以连接固定模式关系和开放域关系; 矩阵中的1表示实体之间是否存在关系。 我们希望预测矩阵中的缺失值,并产生一个置信度值(介于0和1之间),如原始论文中的图片所示。 对矩阵的考虑使关系提取的问题接近另一个领域:协作过滤。然后可以使用协作过滤的方法来推断新的关系。

可以考虑几种嵌入方法的参数化:潜在特征模型,邻域模型和实体模型,甚至是它们的组合。 对于训练,使用贝叶斯个人排名(BPR) ; 它是一种排名程序,它使观察到的事实得分高于随机事实(通过负面抽样获得)。

上述方法的一个问题是,每个openIE文本都嵌入到不同的向量中,因此不可能推广到训练集中缺少的新的openIE文本。

通用模式与深度学习

Toutanova等人为文本和知识库的联合嵌入表示文本 。 (2015)通过在具有卷积神经网络(ConvNet)的实体之间嵌入文本来解决推广到新的开放领域关系的问题。 而不是使用openIE工具 【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS正如在上面介绍的文章中那样,ConvNet被用来参数化两个实体之间的文本(在单词级别)。语法依赖分析被用作额外的输入。 在这里的图片中,黄色矢量是开放域关系的嵌入。 请注意,嵌入相似的开放域关系也可以避免协同过滤中的冷启动问题。

Verga等人使用Compositional Universal Schema多语言关系提取 (2016年)使用同一种架构。 他们尝试了ConvNet和LSTM递归神经网络,结果发现LSTM网络胜过ConvNet。 他们的模型与Toutanova之间还有两点不同之处。 第一个原因是开放域关系的编码器网络被用于推理时,当我们想对文本进行概括而不重新训练模型时。 其次,Verga et al。 不要在原始文本中使用语法依赖分析信息。 Verga等人 更进一步,因为他们的模型与多语言数据一起工作。 重要的是,他们的方法执行多语言转移学习,通过在文本语料库中学习共享实体的相同表示,为在KG中没有实体的语言提供预测模型。 下图给出了要填充的矩阵和参数化模型的概述。 请注意,不同的编码器(带有捆绑重量)用于不同的语言。 有趣的是,联合学习英语和西班牙语模型提高了英语模式的分数。

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

文章还强调,通过对实体之间的原始文本进行过滤和规范化所获得的开放领域关系对于习惯表达式也具有优势,例如当文本片段的含义不是它所包含的单词的组合时。 在这种情况下,我们不想将惯用表达式提供给LSTM网络,但更好地了解它的独特嵌入。 在实践中,文章表明,由于充分利用了互补方法,所以嵌入参数化(LSTM在词汇和独特嵌入)词汇的集合非常好。

结论

我们在这里回顾了各种技术来推断知识图中的新关系并从文档中提取关系。 我们专注于最近的技术,这些技术依赖于关系和实体的嵌入,深度学习,协作过滤......对于我们来说,进一步的工作是考虑并不总是提供绝对和时间不变的知识的文本。 例如在社交媒体中,当人们表达自己的意见时,事实可能会因人而异,导致知识库中的矛盾。 此外,在Heuritech,我们对多模态数据感兴趣,所以我们希望能够从图像中提取相关信息,并将其与文本中的信息放在同一个KG中。