基于本体的知识图谱构建过程
一、 知识图谱的逻辑架构:
在逻辑上,知识图谱被划分为数据层和模式层,其中:
- 模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理。
- 数据层:存储实例知识数据。
二、知识图谱的技术架构
通用的基于本体的知识图谱构建架构如图1所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。
知识图谱的构建的原始数据包含结构化数据、半结构化数据、非结构化数据三种,通过一系列自动化或半自动化的技术手段,从原始数据中提取出知识要素(即实体及其关系),将其存入知识图谱的模式层与数据层。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:知识抽取、知识融合、知识加工。
1.1 知识抽取
知识抽取是一种自动化地从半结构化和非结构化数据中抽取实体、关系以及实体属性等结构化信息的技术,涉及的关键技术包括:实体抽取、关系抽取、属性抽取。
1.1.1 实体抽取
实体抽取,也称为命名实体识别(Named Entity Recognition, NER),是指从文本预料中自动识别出命名实体。
命名实体(Named Entity):指人名、机构名、地名等以名称为标识的实体,更广泛的还包括数字、日期、货币、地址等等。
如:姚明、易建联
1.1.2 关系抽取
文本语料经过实体抽取之后,得到一系列离散的命名实体。为了得到语义信息,需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,形成网状的知识结构。
如:姚明 → (朋友) → 易建联
1.1.3 属性抽取
从不同信息源中采集特定实体的属性信息。
如:姚明的生日、身高等信息
1.2 知识融合
通过知识抽取获得的信息具有以下两个问题:信息之间关系扁平化,缺乏层次性与逻辑性;存在大量冗余信息。采用知识融合解决上述问题,主要包含两个部分:实体链接、知识合并,其中,实体链接涉及共指消解、实体消歧两种技术。
1.2.1 实体链接
实体链接(Entity Linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想从文本中通过实体抽取得到实体项,进行共指消解、实体消歧,在确认知识库中对应的正确实体对象之后,将该实体项链接到知识库中对应实体。
- 共指消解
共指消解(Coreference Resolution)技术主要用于解决多个指称对应同一实体对象的问题。
共指是NLP领域的概念,主要指多个名词(包括代名词、名词短语)指向真实世界中的同一参照体,且这种指代脱离上下文仍然成立。
该任务通常通过混用基于实体属性值相似度计算方法(比较描述实体的属性和属性值之间的异同)和基于本体语言等价推理的方法(推理不同实体标志符间的对象共指关系)来完成。
- 实体消歧
实体消歧(Entity Disambiguation)技术主要用于解决同名实体产生歧义的问题。
该任务通常通过计算实体属性之间的相似度,利用聚类模型来完成。
1.2.2 知识合并
1.2.1节中所述知识链接用于知识抽取后的半结构化数据与非结构化数据的处理,对于结构化数据,采用知识合并对冗余信息进行处理。
1.3 知识加工
知识加工主要包括三个方面的内容:本体构建、知识推理、质量评估。
1.3.1 本体构建
本体(Ontology)包含某个学科内的基本实体和实体之间的关系,是描述领域知识的通用概念模型。本体可以借助本体编辑软件手动构建,也可以以数据驱动的自动化方式构建。
1.3.2 知识推理
知识图谱在完成本体构建后已经初具雏形,但知识之间的关系存在残缺,采用知识推理进一步知识发现,从而对知识图谱的知识进行补全。
知识推理主要分为三大类:基于规则的推理、基于图的推理、基于深度学习的推理。
1.3.3 质量评估
质量评估也是知识库构建技术的重要组成部分,用于对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识图谱的质量。
1.4 知识更新
从逻辑上看,知识图谱的更新包括概念层的更新和数据层的更新。
-
概念层的更新
概念层的更新指新增数据后获得了新的概念,需要自动将新的概念添加到知识图谱的概念层中。 -
数据层的更新
数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性等,并选择在各数据源中出现频率高的事实和属性加入知识图谱。
知识图谱的更新有两种方式:全面更新、增量更新。
-
全面更新
指以更新后的全部数据为输入,从零开始构建知识图谱。该方法较简单,但资源消耗大。 -
增量更新
以当前新增数据为输入,向现有知识图谱中添加新增知识。该方法较复杂,但资源消耗小。