本体构建技术调研
1.1本体概念
本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。
本体不等同于个体,它是相应领域内公认的概念集合。
1.2 本体分类
(1)顶层本体:研究通用概念以及概念之间的关系,如空间、时间、事件等,与具体应用无关,完全独立于限定领域,因此可以在较大范围内进行共享。
(2)领域本体:研究的是特定领域内概念及概念之间的关系。
(3)任务本体:定义一些通用任务或相关推理活动,用来表达具体任务内的概念及概念之间关系。
(4)应用本体:用来描述一些特定的应用,既可以引用领域本体中特定的概念,又可以引用任务本体中出现的概念。
1.3 本体构成
构成:五元素(建模元语)
①类(Classes)或概念(Concepts);
② 关系(Relations);
③ 函数(Functions);
④ 公理(Axioms);
⑤ 实例(Instances)
1.4 描述语言
本体的描述语言众多,W3C推荐的本体描述语言主要有RDF、RDFS和OWL。
1、RDF(资源描述框架),RDF用于描述web上的资源,是使用XML语言编写、计算机可读的,不是为了向用户展示。
2、RDFS(RDF Schem,RDF词汇描述语言),RDFS是在RDF基础上对其进行扩展而形成的本体语言,解决了RDF模型原有的缺点,定义了类、属性、属性值来描述客观世界,并且通过定义域和值域来约束资源,更加形象化表达了知识。
3、OWL(Web Ontology Language,Web本体语言),用来对本体进行语义描述。OWL保持了原有RDF、RDFS的兼容性,有较好的语义表达能力,根据表达能力的增强顺序OWL分为三种子语言:OWL-Lite、OWL-DL和OWL-Full。
1.5 应用领域
应用于知识工程、自然语言处理、系统建模、信息处理、数字图书馆、信息检索和语义Web、软件复用、面向对象技术等领域。
典型应用案例:
(l)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。
(2)基于本体的数据集成、机器学习等。
(3)领域本体的应用。比如,在生物信息学中已建成的GeneOntology,尽管只包括了part-of等简单的关系,但是对生物信息学界已经有巨大的影响。
(4)语义Web服务。
(5)在线元数据管理和自动信息发布。
1.6 研究现状
国外:
国外对本体建模作了大量研究并运用于知识工程领域。主要代表为:
① 万维网联盟W3C的研究;
② 德国卡尔斯鲁厄大学基于本体的知识门户和语义门户的研究;
③ 美国斯坦福大学的知识系统实验室对本体建模工具和本体应用层面的研究。
国内:
国内进行本体研究的主要有三支科研力量。
1)中国科学院计算所、数学所、自动化所的若干实验室,代表人物是陆汝铃院士等人。
2)哈尔滨工业大学计算机系,代表人物是王念滨博士。
3)浙江大学人工智能研究所,代表人物是博士生导师高济教授。
2.1 构建方法
手工建立本体、 半自动构建本体(复用已有本体)、自动构建本体
2.2 构建难点
- 现状大多手工建立本体费时费力,特定领域需专家参与。
- 通用的大规模本体少,大多本体只针对某个具体应用领域构造的
- 在实际应用中,不同本体之间映射、扩充与合并处理等操作复杂。
- 现实的知识体系变化时,先前构造的本体必须作相应的演化保持一致性。
2.3 领域本体构建工程思想
IDEF-5方法:通过使用图表语言和细化说明语言,获取关于客观存在的概念、属性和关系,并将它们形式化成本体。
骨架法,又称Enterprise法,专门用来创建企业本体。
TOVE企业建模法,通过本体建立指定知识的逻辑模型。
Methontology方法,是在结合了骨架法和GOMEZ-PEREZ方法后提出的一种更通用的方法。专用于创建化学本体(有关化学元素周期表的本体),该方法已被马德里大学理工分校人工智能图书馆采用。
循环获取法,是一种环状的结构。流程如下:(1)资源选取(2)概念学习(3)领域集中(4)关系学习(5)评价
七步法:由斯坦福大学医学院开发,主要用于领域本体的构建。
2.4 现有的领域本体构建方法
1、构建领域本体的知识工程方法
主要特点:强调构建本体时要按照一定的规范和标准。相对于一般的系统,本体更强调共享、重用,可以为不同系统提供一种统一的语言,因此本体构建的工程性更为明显。
方法:目前本体工程中比较有名的方法包括TOVE 法、Methontology方法、骨架法、IDEF-5法和七步法等。(大多是手工构建领域本体)
现状: 由于本体工程到目前为止仍处于相对不成熟的阶段,领域本体的建设还处于探索期,因此构建过程中还存在着很多问题。
方法成熟度: 常用方法的成熟度依次为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法。
2、基于叙词表的领域本体构建
叙词表是一种语义词典,由术语及术语之间的各种关系组成。叙词表包含丰富的领域概念和语义关系,在表达知识结构上与本体有着天然联系,因此国内外很多学术团体都在尝试基于叙词表构建本体,研究重点在于叙词表向本体转换的方法。
现状:
**国外:**比较成熟的是通过本体表示语言对叙词表的词语和关系进行转换,有以下几种:用XML Schema构建叙词标记语言、用RDF Schema关系表示叙词内容、用RDF Schema表示叙词关系、用DAML + OIL关系表示叙词关系。
**国内:**对叙词表转化的研究,正处于热点阶段,主要有《国防科学技术叙词表》和《中国农业科学叙词表》的一部分。中国农业科学院科的常春博士基于《中国农业科学叙词表》的"作物大类",构建了一个有关食物安全的本体原型。中国国防科技信息中心的唐爱民等结合Enterprise方法、Methontology方法与"瀑布模型",基于《国防科学技术叙词表》成功构建了军用飞机领域本体的原型。
3、基于顶层本体构建领域本体的构建方法
本体构建的理论探讨已经比较成熟,但当将构建完的本体与实际应用联系起来的时候,就会存在的一些问题:
① 领域本体构建与应用脱节;
②领域本体难以复用和集成;
③ 由叙词表难以转化成真正的本体;
④ 本体构建的概念体系不够规范。
针对这些问题,提出了基于顶层本体开发领域本体的指导方法。
该方法从本体工程方法论的成熟度和领域本体构建的特点出发,借鉴了骨架法和七步法,并融合了叙词表和顶层本体资源,对概念体系的规范化校验和本体的标准化处理提出了具体的方法和步骤。
2.5 本体构建工具
目前常用的本体构建工具主要分为两类:可视化手工构建工具和半自动化构建工具。
- 可视化手工构建工具,主要有protégé、Apollo、WebOnto、WebODE和OntoEdit等,这类工具通常为用户提供可视化界面,用户可以通过简单的操作完成本体的构建。
其中常用的是Protégé具有图形化的用户界面,操作简单,支持模块化设计,支持DAML+OIL和OWL语言,可利用RDF、RDFS和OWL等语言对本体进行编辑。但protégé不能批量导入数据,构建大规模本体费时费力,手工输入效率较低。现在常用的本体构建工具中,只有protégé支持中文输入,可以构建中文本体,但在中文推理机制方面却表现不佳。而其他构建工具基本上都不支持中文。
- 半自动化构建工具。基于Java语言的Jena大大提高了构建本体的效率,但还没有实现完全意义上的自动化本体构建,仍需进一步研究。