浅谈知识表示之语义网络、RDF和OWL

  • 语义网络
    • 提出者
    • 定义
      • 一种用图(有向图、无向图)来表示知识的结构化方式
      • 解释
        • 语义网可以看成是基于图来表示与存储知识的数据结构。其用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间的关系。
    • 优点
      • 使用语义网络很方便地将自然语言的句子用图来表达和存储,从而带来以下优势:
        • 容易理解和展示。
        • 相关概念容易聚类
        • 例如将: John gave a book to Mary 使用语义网络来表示浅谈知识表示之语义网络、RDF和OWL
    • 讨论
      • 对于自然语言来说,使用什么样的表示方式是合理的?主要看一个表示方法是否足够表示人类的知识,还要看这个方法是否支持足够高效的推理。
    • 缺点
      • 节点和边的值没有标准,完全是由用户自己定义。
      • 多源数据融合比较困难,因为没有标准。
      • 无法区分概念节点和对象节点。
      • 无法对节点和边的标签(label,我理解是schema层)进行定义。
    • 问题
      • 由于上述缺陷的存在,使其较难应用于实践,RDF(Resource Description Framework)由此被提出
  • RDF(Resource Description Framework)
    • 定义
      • 资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准来描述实体/资源。(语义网络没有)
    • 解释
      • RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系。
    • 表示形式
      • SPO三元组,或称为语句
    • 序列化方式:存储和传输RDF数据集的方式
      • RDF/XML
        • 就是用XML的格式来表示RDF数据,但其格式太冗长,也不便于阅读
      • N-Triples
      • Turtle
        • 比RDF/XML紧凑,且可读性比N-Triples好。(在表示之前加前缀,从而对RDF的IRI进行缩写)
        • 表示示例
          • 初级
          • 进一步的,同一个实体拥有多个属性(数据属性)或关系(对象属性),我们可以只用一个subject来表示,使其更紧凑。浅谈知识表示之语义网络、RDF和OWL
      • RDFa(The Resource Description Framework in Attributes)
        • 是HTML5的一个扩展,在不改变任何显示效果的情况下,让网站构建者能够在页面中标记实体
        • 展示工具
      • JSON-LD(JSON for Linking Data)
    • 意义
      • RDF采用统一的标准来描述资源/实体,所以它解决了语义网络的第一个和第二个缺点,在节点和边的取值上做了约束,为多源数据的融合提供了便利
    • 缺点
      • 无法区分类和对象,也无法定义和描述类的关系/属性,即RDF是对具体事物的描述,缺乏抽象能力,无法对同一个类别的事物进行定义和描述。
  • RDFS(Resource Description Framework Schema)
    • 背景
      • 由于RDF缺乏对具体事物的抽象能力,即无法区分类和对象,无法定义概念属性,进一步提出了RDFS和OWL表示方式
    • 定义
      • 模式语言
      • 它在概念、抽象层面对RDF数据进行定义浅谈知识表示之语义网络、RDF和OWL
    • RDFS本质上是RDF词汇的一个扩展,后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL。我们也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。
  • OWL
    - 本体语言
    • 和RDFS相比,OWL增加了描述属性特征的词汇
      • owl:TransitiveProperty. 表示该属性具有传递性质。例如,我们定义“位于”是具有传递性的属性,若A位于B,B位于C,那么A肯定位于C。
      • owl:SymmetricProperty. 表示该属性具有对称性。例如,我们定义“认识”是具有对称性的属性,若A认识B,那么B肯定认识A。
      • owl:FunctionalProperty. 表示该属性取值的唯一性。 例如,我们定义“母亲”是具有唯一性的属性,若A的母亲是B,在其他地方我们得知A的母亲是C,那么B和C指的是同一个人。
      • owl:inverseOf. 定义某个属性的反向关系。例如,定义“父母”的相反关系是“子女”,若A是B的父母,那么B肯定是A的子女。
      • 浅谈知识表示之语义网络、RDF和OWL
    • 表示示例
      浅谈知识表示之语义网络、RDF和OWL
    • 优势
      • 提供快速、灵活的数据建模能力。
      • 高效的自动推理。
      • 知识图谱的推理主要分为两类:基于本体的推理和基于规则的推理。
  • 语义网(Semantic Web)
    • 提出者
      • 万维网之父Tim Berners Lee
    • 定义
      • 相对于语义网络,语义网倾向于描述万维网中资源、数据之间的关系。它是为了使得网络上的数据变得机器可读而提出的一个通用框架。
  • 链接数据
    • 链接数据起初是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接。从某种角度说,知识图谱是对链接数据这个概念的进一步包装。
  • 知识图谱
    • 知识图谱是由本体(Ontology)作为Schema层,和RDF数据模型兼容的结构化数据集。
    • 本体
      • 本体是共享概念模型的明确的形式化规范说明。这个定义体现了本体的四层含义:概念模型、明确、形式化、共享。
        • 概念模型:通过抽象出客观世界中一些现象的相关概念而得到的模型。
        • 明确:所使用地概念及使用这些概念的约束都有明确的定义。
        • 形式化:本体可通过各种形式化语言对其进行描述,最终是计算机可读、可操作的。
        • 共享:本体中体现的是公认的知识,反映的是相关领域中公认的概念集。本体的目标是通过确定该领域内共同认可的词汇,达到对该领域知识的共同理解。
    • 同链接数据的区别
      • 链接数据更强调不同RDF数据集(知识图谱)的相互链接。
        • 知识图谱不一定要链接到外部的知识图谱(和企业内部数据通常也不会公开一个道理),更强调有一个本体层来定义实体的类型和实体之间的关系。另外,知识图谱数据质量要求比较高且容易访问,能够提供面向终端用户的信息服务(查询、问答等等)。
  • 参考: