浅谈知识表示之语义网络、RDF和OWL
分类:
文章
•
2024-11-06 13:00:10
- 语义网络
- 提出者
- 定义
- 一种用图(有向图、无向图)来表示知识的结构化方式
- 解释
- 语义网可以看成是基于图来表示与存储知识的数据结构。其用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间的关系。
- 优点
- 使用语义网络很方便地将自然语言的句子用图来表达和存储,从而带来以下优势:
- 容易理解和展示。
- 相关概念容易聚类
- 例如将: John gave a book to Mary 使用语义网络来表示
- 讨论
- 对于自然语言来说,使用什么样的表示方式是合理的?主要看一个表示方法是否足够表示人类的知识,还要看这个方法是否支持足够高效的推理。
- 缺点
- 节点和边的值没有标准,完全是由用户自己定义。
- 多源数据融合比较困难,因为没有标准。
- 无法区分概念节点和对象节点。
- 无法对节点和边的标签(label,我理解是schema层)进行定义。
- 问题
- 由于上述缺陷的存在,使其较难应用于实践,RDF(Resource Description Framework)由此被提出
- RDF(Resource Description Framework)
- 定义
- 资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准来描述实体/资源。(语义网络没有)
- 解释
- RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系。
- 表示形式
- 序列化方式:存储和传输RDF数据集的方式
- RDF/XML
- 就是用XML的格式来表示RDF数据,但其格式太冗长,也不便于阅读
- N-Triples
- 用多个三元组来表示RDF数据集,是最直观的表示方法。每一行表示一个三元组,方便机器解析和处理。
- 表示示例
- Turtle
- 比RDF/XML紧凑,且可读性比N-Triples好。(在表示之前加前缀,从而对RDF的IRI进行缩写)
- 表示示例
- 初级
- 进一步的,同一个实体拥有多个属性(数据属性)或关系(对象属性),我们可以只用一个subject来表示,使其更紧凑。
- RDFa(The Resource Description Framework in Attributes)
- 是HTML5的一个扩展,在不改变任何显示效果的情况下,让网站构建者能够在页面中标记实体
- 展示工具
- JSON-LD(JSON for Linking Data)
- 意义
- RDF采用统一的标准来描述资源/实体,所以它解决了语义网络的第一个和第二个缺点,在节点和边的取值上做了约束,为多源数据的融合提供了便利
- 缺点
- 无法区分类和对象,也无法定义和描述类的关系/属性,即RDF是对具体事物的描述,缺乏抽象能力,无法对同一个类别的事物进行定义和描述。
- RDFS(Resource Description Framework Schema)
- 背景
- 由于RDF缺乏对具体事物的抽象能力,即无法区分类和对象,无法定义概念属性,进一步提出了RDFS和OWL表示方式
- 定义
- 模式语言
- 它在概念、抽象层面对RDF数据进行定义
- RDFS本质上是RDF词汇的一个扩展,后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL。我们也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。
- OWL
- 本体语言
- 和RDFS相比,OWL增加了描述属性特征的词汇
- owl:TransitiveProperty. 表示该属性具有传递性质。例如,我们定义“位于”是具有传递性的属性,若A位于B,B位于C,那么A肯定位于C。
- owl:SymmetricProperty. 表示该属性具有对称性。例如,我们定义“认识”是具有对称性的属性,若A认识B,那么B肯定认识A。
- owl:FunctionalProperty. 表示该属性取值的唯一性。 例如,我们定义“母亲”是具有唯一性的属性,若A的母亲是B,在其他地方我们得知A的母亲是C,那么B和C指的是同一个人。
- owl:inverseOf. 定义某个属性的反向关系。例如,定义“父母”的相反关系是“子女”,若A是B的父母,那么B肯定是A的子女。

- 表示示例
- 优势
- 提供快速、灵活的数据建模能力。
- 高效的自动推理。
- 知识图谱的推理主要分为两类:基于本体的推理和基于规则的推理。
- 语义网(Semantic Web)
- 提出者
- 定义
- 相对于语义网络,语义网倾向于描述万维网中资源、数据之间的关系。它是为了使得网络上的数据变得机器可读而提出的一个通用框架。
- 链接数据
- 链接数据起初是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接。从某种角度说,知识图谱是对链接数据这个概念的进一步包装。
- 知识图谱
- 知识图谱是由本体(Ontology)作为Schema层,和RDF数据模型兼容的结构化数据集。
- 本体
- 本体是共享概念模型的明确的形式化规范说明。这个定义体现了本体的四层含义:概念模型、明确、形式化、共享。
- 概念模型:通过抽象出客观世界中一些现象的相关概念而得到的模型。
- 明确:所使用地概念及使用这些概念的约束都有明确的定义。
- 形式化:本体可通过各种形式化语言对其进行描述,最终是计算机可读、可操作的。
- 共享:本体中体现的是公认的知识,反映的是相关领域中公认的概念集。本体的目标是通过确定该领域内共同认可的词汇,达到对该领域知识的共同理解。
- 同链接数据的区别
- 链接数据更强调不同RDF数据集(知识图谱)的相互链接。
- 知识图谱不一定要链接到外部的知识图谱(和企业内部数据通常也不会公开一个道理),更强调有一个本体层来定义实体的类型和实体之间的关系。另外,知识图谱数据质量要求比较高且容易访问,能够提供面向终端用户的信息服务(查询、问答等等)。
- 参考: