语义网、本体、OWL基础知识梳理

一、语义网(Semantic Web)

         语义网(Semantic Web)是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。简单地说,语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。

语义网、本体、OWL基础知识梳理

 

二、体系结构

       Berners-Lee提出了最初的语义网体系结构,随着人们对语义网的深入研究,语义网的体系结构也在不断地发展演变。下图给出了语义Web的体系结构,各层的功能自下而上逐渐增强。

语义网、本体、OWL基础知识梳理

第1层:基础层,主要包含Unicode和URI(Uniform resource identifier)。“字符集”层。

        其中Unicode是一种流行的字符集,采用两字节的全编码,可以表示65536个字符,这使得任何语言的字符都可以被机器容易地接受。URI即通用资源标识符是用于唯一标识抽象或物理资源的简单字符串。网络上的任何资源包括HTML文档、程序、图片、音视频等都有一个能被URI编码的地址,从而实现对Web资源的定位。

第2层:句法层,核心是XML及相关规范。

        XML是SGML(标准通用标记语言)的一个子集,它以一种自我描述的方式定义数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的联系。用户可以在XML中自由地定义标记名称及元素的层次结构。为了便于程序或其他用户能够正确处理用户定义的内容,XML还定义了命名空间(Name Space)和XML模式规范(XML Schema)以提供更好地XML文档服务。

第3层:资源描述框架,主要包括RDF及相关规范。

       RDF是一种用于描述WWW上资源信息的通用框架,比如网页的内容、作者以及被创建和修改的日期等。RDF本质上是一种数据模型,用主体(subject)、谓词或属性(predicate或property)、客体或属性值(object或property value)所构成的三元组来描述资源的元数据。RDF也可以用于表达其它元数据,例如分子的结构、图书的书目信息等。正因为RDF的灵活性,它成为了诸如生物、化学等许多领域表达元数据的基本方法。可以说,RDF已经成为知识表达的通用形式。如果把XML看成一种标准的元数据语法规范的话,那么RDF就可以看做一种标准的元数据语义描述规范。

       如下图,RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系。

语义网、本体、OWL基础知识梳理

第4层:本体层,即定义本体(Ontology)。

        该层在RDF的基础上定义了RDFS(RDF Schema)和OWL(Web Ontology Language)帮助用户构建应用领域相关的轻量级的本体。RDFS和OWL定义了语义,可以支持机器在用RDFS和OWL描述的知识库和本体中进行推理,以达到语义网的目标。

         RDFS/OWL是RDF的“衣服”,它们都是用来描述RDF数据的。为了不显得这么抽象,我们可以用关系数据库中的概念进行类比。用过Mysql的读者应该知道,其database也被称作schema。这个schema和我们这里提到的schema language十分类似。我们可以认为数据库中的每一张表都是一个类(Class),表中的每一行都是该类的一个实例或者对象,表中的每一列就是这个类所包含的属性。如果我们是在数据库中来表示人和地点这两个类别,那么为他们分别建一张表就行了;再用另外一张表来表示人和地点之间的关系。RDFS/OWL本质上是一些预定义词汇(vocabulary)构成的集合,用于对RDF进行类似的类定义及其属性的定义。RDFS本质上是RDF词汇的一个扩展。后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL。也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。

第5至7层:分别是逻辑层(Logic)、验证层(Proof)、信任层(Trust)。

         逻辑层在前面各层的基础上进行逻辑推理操作。验证层根据逻辑陈述进行验证,以得出结论。信任层是语义网安全的组成部分,与加密不同的是,该层主要负责发布语义网所能支持的信任评估[4]。目前第6层和第7层正处于设想阶段。

 

三、 Ontology

         Ontology (本体或本体论),原本是一个哲学上的概念,用于研究客观世界本质。目前Ontology已经被广泛应用到包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多领域。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。

        在语义网的实现中,ontology具有非常重要的地位。怎样构建本体一直是人们研究的热点。各国科研人员研发出了不少本体的构建、存储、和检索工具,其中较为常用的支持中文本体构建的软件是由斯坦福大学开发的Protégé,开发语言采用Java,属于开放源码软件。本体的构建大多是面向特定的领域的,因此如果没有规范的方法,就难以在不同领域的本体构建中保持一致。也正因为本体是领域相关的,所以难以制定一个标准的、通用的ontology构建方法。在此背景下,本体工程学应运而生。本体工程研究的内容包括面向领域的本体开发过程、本体生命周期、本体构建方法及方法学,以及为这些方面提供支持的工具包和语言。

        本体一般都是采用本体语言来编制的。按照表示和描述的形式化的程度不同,可以将本体分为完全非形式化本体、半非形式化本体、半形式化本体和严格形式化的本体。有许多语言可用于表示Ontology。本体语言是一种用于编制本体的形式化语言。目前已经诞生了不少本体描述语言,既包括专有的,也包括基于标准的。在众多本体语言中,网络本体语言(Web Ontology Language,OWL)是极为耀眼的一颗明星。OWL旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。OWL网络本体语言于2004 年2月成为一项 W3C 的推荐标准,它是万维网联盟认可的,用于编纂本体的知识表达语言家族。

       OWL弥补了RDFS的不足,运用人工智能(Artificial intelligence,AI)中的逻辑来赋予语义,支持多种形式的推理。在表达概念的语义灵活性、Web内容的机器可理解性等方面OWL比早前的XML、RDF、RDF-S等语言都要强。在RDFS/OWL之上,W3C还定义了规则互换格式(rule interchange format,RIF)和SWRL(Semantic Web Rule Language)来辅助推理。其中RIF支持在不同的规则格式里互操作。

 

四、OWL

OWL包含三个语言,分别是:OWL Lite、OWL DL 和 OWL Full。

他们之间是递进的关系,即OWL Lite最简单、能力最弱,OWL DL较强,OWL Full最强、包含前面两个的全部内容。

    OWL Lite OWL Lite是表达能力最弱的子语言。它是OWL DL的一个子集,但是通过降低OWL DL中的公理约束,保证了迅速高效的推理。它支持基数约束,但基数值只能为0或l。因为OWL Lite表达能力较弱,为其开发支持工具要比其他两个子语言容易一些。OWL Lite用于提供给那些仅需要一个分类层次和简单约束的用户。
    OWL DL(DL=Description Logic,描述逻辑)将可判定推理能力和较强表达能力作为首要目标,而忽略了对RDFS的兼容性。OWL DL包括了OWL语言的所有语言成分,但使用时必须符合一定的约束,受到一定的限制。OWL DL提供了描述逻辑的推理功能,描述逻辑是OWL的形式化基础。
    OWL Full 包含OWL的全部语言成分并取消了OWL DL中的限制,它将RDFS扩展为一个完备的本体语言,支持那些不需要可计算性保证(no computational guarantees)但需要最强表达能力和完全自由的RDFS用户。在OWL Full中,一个类可以看成是个体的集合,也可以看成是一个个体。由于OWL Full取消了基数限制中对可传递性质的约束,因此不能保证可判定推理