【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers

Text Generation from Knowledge Graphs with Graph Transformers

基于图转换器从知识图谱中生成文本

Rik Koncel-Kedziorski1 , Dhanush Bekal1 , Yi Luan1 , Mirella Lapata2 , and Hannaneh Hajishirzi1,3
1University of Washington {kedzior,dhanush,luanyi,hannaneh}@uw.edu
2University of Edinburgh [email protected]
3Allen Institute for Artificial Intelligence

摘要:生成表达跨越多个句子的复杂思想的文本需要对其内容进行结构化表示,但是手工生成这些表示非常昂贵。在这项工作中,我们解决了从一个信息提取系统的输出,特别是一个知识图谱生成连贯的多句文本的问题。图形化知识表示在计算中是普遍存在的,但由于其非层次性、远程依赖关系的崩溃和结构的多样性,给文本生成技术带来了巨大的挑战。本文介绍了一种新的图形转换编码器,它可以利用这些知识图谱的关系结构,而不需要施加线性化或层次约束。结合编解码器的设置,我们提供了一个端到端可训练的系统,用于生成应用于科学文本领域的图形到文本的生成。自动和人工评估表明,我们的技术产生了更多的信息文本,显示出更好的文档结构比竞争的编译码方法。

1.引言

计算能力和模型能力的提高使得生成自然语言文本的大部分语法长度的字符串成为可能。然而,产生与主题相关的几个句子并显示整体连贯性和话语相关性是一个开放的挑战。在诸如科学写作之类的感兴趣领域中,困难更加复杂。 在这里,各种可能的主题都很大(例如,在一个科学学科的一个子领域中引用了各种主题,例如开车,写诗和股票交易)。此外,由于科学交流需要对过程和现象进行精心排序的解释,因此文档结构受到严格限制。

许多研究人员试图通过使用结构化输入来解决这些问题。数据文本生成模型(Konstas和Lapata,2013; Lebret等,2016; Wiseman等,2017; Puduppully等,2019)以表结构输入为条件来生成文本。表格输入表示法为生成更长的文本提供了更多指导,但仅适用于有限的域,因为它们是通过手动注释过程进行大量组装的。

当前的工作探讨了使用信息提取(IE)系统自动提供生成较长文本的上下文的可能性(图1)。健壮的IE系统是可用的,并已支持多种文本领域,并且经常提供超出单个句子范围的丰富关系注释。但是由于它们的自动性质,它们还带来了生成挑战,例如错误的注释,结构变化以及表面文本特征(例如语法关系或谓词结构)的大量抽象。
【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers
图1:基于条件随机场的事件检测。科学文本,显示信息提取系统的注释和相应的图形表示。 以颜色显示的共指注释(Coreference annotations)。我们的模型学习使用图形编码器解码器设置从自动提取的知识中生成文本。

为了影响我们的研究,我们使用了一系列科学文章摘要(Ammar et al.,2018)。我们使用最先进的信息提取系统(Luan et al.,2018)为每个摘要提取实体,共指和关系注释,并将这些注释表示为折叠共指实体的知识图谱。图1中显示了一个文本和图的示例。我们使用这些图/文本对来训练用于知识图谱到文本生成的新颖的基于注意力的编码器-解码器模型。我们的模型,GraphWriter,在最近的Graph Attention Network体系结构(Velickovic等,2018)的基础上,将成功的文本编码Transformer(Vaswani等,2017)扩展到图结构化输入。结果是一个强大的,通用的图形编码模型,当在其局部邻域中对顶点进行上下文化处理时,可以合并全局结构信息。

本文主要贡献如下:
1. 我们提出了一个新的图转换编码器,该编码器成功地将序列变换器应用于图结构化的输入。
2. 我们展示了IE输出如何形成为一个连接的、未标记的图形,以用于基于注意力的编码器。
3. 我们提供了与科学为本匹配的大的知识图谱数据集,以用于未来的研究。
通过详细的自动和人工评估,我们证明了自动提取的知识可以用于多句文本生成。 我们进一步表明,与其他编码器-解码器设置相比,将这种知识结构化和编码为图形可提高生成性能。 最后,我们证明了GraphWriter的转换器样式编码器在知识图文转换方面比Graph Attention Networks更有效。

相关工作

我们的工作属于从概念到文本生成的更大范围。 Barzilay和Lapata(2005)引入了一种集体内容选择模型,用于从游戏统计表中生成足球比赛摘要。 Liang et. al.(2009年)共同学习将文本与记录分割和对齐,减少了学习所需的监督。 Kim和Mooney(2010)通过学习对逻辑形式的语义解析来改进了此技术。 Konstas和Lapata(2013)专注于生成目标,使用修辞(RST)语法归纳方法共同学习规划和生成。

这些早期的工作通常集中于较小的记录生成数据集,例如WeatherGov和RoboCup,但最近Mei等人(2016年)展示了神经模型如何在这些标准上取得强大成果,促使研究人员研究更具挑战性的领域,例如我们的领域。

Lebret等(2016)解决了从相关信息框中生成Wikipedia条目的第一句话的任务。它们提供了此类条目的大型数据集以及以表为条件的语言模型。我们的工作集中在多句子任务上,其中关系可以扩展到句子边界之外。

Wiseman等(2017)研究了将神经模型应用于数据到文本任务的难度。他们介绍了一个大型数据集,其中篮球比赛的文本摘要与两个相关统计表配对,并显示了神经模型难以在此数据上与基于模板的方法竞争。我们建议从图而不是从表生成,并表明可以对图进行有效编码以捕获输入中的局部和全局结构。

我们表明,将知识建模为图可以改善生成结果,将我们的工作与其他图到文本任务(例如从抽象含义表示(AMR)图生成)联系起来。 Konstas等(2017年)提供了第一个用于此任务的神经模型,并显示了对嘈杂的自动分析的大型数据集进行预训练可以改善结果。但是,它们不直接对图形结构建模,而是依赖于线性化和序列编码。当前的工作通过更复杂的图形编码技术对此进行了改进。 Marcheggiani和Perez-Beltrachini(2018)使用图卷积编码器直接对输入图进行编码(Kipf和Welling,2017)。我们的模型扩展了Velickovic等人(2018)的图注意力网络,是卷积方法的直接后代,它提供了更多的建模能力,并被证明可以改善性能。宋等(2018)使用图LSTM模型来影响信息传播。在每个时间步,一个顶点都由与其相连的顶点和连接它们的标记边的门控组合表示。贝克等(2018)使用类似的门控图神经网络。这两个门控模型都大量使用标签信息,这在我们的知识图中比AMR少得多。通常,AMR图是密集的,有根的和相互联系的,而我们的模型所使用的知识缺乏这些特征。因此,我们将重点放在基于注意力的模型上,例如Velickovic等(2018),这对他们的输入施加了较少的限制。

最后,我们的工作与Wang等人有关(2018)提供了一种从标题生成科学摘要的方法。 他们的模型使用融合的重写器网络以逐个顺序编写和修改多个草稿输出的过程。 尽管我们在这项工作的通用领域中工作,但由于使用提取的信息作为输入,因此我们的任务设置最终会有所不同。 我们认为我们的设置改善了Wang等人中定义的任务(2018),并且我们更通用的模型可以跨任务和领域应用。

AGENDA数据集

我们考虑从自动提取的信息(知识)生成文本的问题。 IE系统可以为各种领域提供高质量的知识,从句子甚至文档边界中综合信息。从知识生成连贯的文本需要一个模型,该模型考虑知识的全局特征以及每个实体的局部特征。这项任务的功能促使我们使用图来表示知识,邻居通过图来定位重要信息,并且路径通过图建立了中间节点之间的远距离节点之间的连接。示例知识图如图1所示。

我们将问题表达如下:给定科学文章的标题和由自动信息提取系统构建的知识图,目标是生成一个摘要,其中a)适用于给定的标题,b)表示该标题的内容。自然语言文本中的知识图。为了评估模型完成此目标的能力,我们引入了Abstract GENeration DAtaset(AGENDA),这是一个与科学摘要配对的知识图谱数据集。我们的数据集包含来自12个*AI会议(Ammar et al.,2018)会议过程的语义学者语料库(Semantic Scholar Corpus)的4万篇论文标题和摘要。

对于每个摘要,我们分两步创建一个知识图谱。首先,我们应用Luan等人(2018年)的SciIE系统,一个最新的科学领域信息提取系统。该系统提供科学术语的命名实体识别,其实体类型为"Task",“Method”,“Metric”,“Material"或"Other-Scientific Term”。该模型还产生共参考注释(co-reference annotations)以及可以在不同实体之间获得的七个关系(Compare,Used-for,Feature-of,Hyponym-of,Evaluate和Conjunction)。例如,在图1中,标记为"SemEval 2011 Task 11"的节点的类型为"Task",“HMM Models"的类型为” Model",并且存在"Evaluate-For"关系,该关系表明在任务上已被评估模型。

我们将这些注释形成知识图谱。 我们将共同引用实体折叠到与最长提及相关联的单个节点中(假设这些实体将提供最多信息)。 然后,我们使用关系注释将节点彼此连接,将它们视为图形中的标记边缘。 结果是给定摘要的SciIE注释可能是未连接的图形表示形式。
表1中提供了AGENDA数据集的统计信息。我们将AGENDA数据集分为38,720个训练,1000个验证和1000个测试数据点。 我们提供标准化的数据拆分,以方便比较。
【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers
表1:我们的AGENDA数据集的数据统计。 平均值是按实例计算的。

方法

【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers

实验

【PaperReading】Text Generation from Knowledge Graphs with Graph Transformers

结论

我们研究了从自动信息提取系统的输出中生成多句文本的问题,并表明将知识作为图形进行合并可以提高性能。 我们介绍了GraphWriter,它具有用于图形编码的新注意力模型,并通过与强基准相比的人工和自动评估证明了其实用性。 最后,我们为生成社区提供了一个新资源,即摘要和知识的AGENDA数据集。 未来的工作可能会解决所生成文本中重复和实体覆盖的问题。

感谢

This research was supported by the Office of Naval Research under the MURI grant N00014-18-1-2670, NSF (IIS 1616112, III 1703166), Allen Distinguished Investigator Award, Samsung GRO and gifts from Allen Institute for AI, Google, Amazon, and Bloomberg. We gratefully acknowledge the support of the European Research Council (Lapata; award number 681760). We also thank the anonymous reviewers and the UW-NLP group for their helpful comments.

文章连接

https://arxiv.org/pdf/1904.02342v1.pdf