UCAS-AI学院-知识图谱专项课-第5讲-课程笔记
知识体系构建与知识融合
知识体系构建
知识体系
- 知识体系:对于知识数据的描述和定义——“元数据”
- 包含内容
- 词汇、类别、概念的定义和描述
- 概念之间的相互关系(分类关系 / 非分类关系)
- 公理(抽象规则)
- 与知识库的关系
- 知识体系:共享概念化的框架规范
- 知识库:服从于知识体系规定的知识单元载体
- 常用组织形式
- 本体Ontology
- 特定领域内信息组织的形式,领域知识规范的抽象和描述
- 对概念、属于及其相互关系的规范化描述
- 真实世界的描述模型
- 使用合适的逻辑形式化
- 定义:
- ,类别集合
- ,实例集合
- ,关系集合
- ,数据类型集合
- ,属性下的具体值集合
- ,专门化关系,存在于类别之间、关系之间以及数据类型之间
- ,不包含关系,存在于类别之间、关系之间以及数据类型之间
- ,实例化关系,存在于实例与类别之间、值与数据类型之间
- ,赋值关系,存在于上
- 特点
- 概念化:系统蕴含的语义结构
- 显式化:显式定义
- 规范化:机器可读
- 公理化:一个群体共同认可
- 应用
- 管理知识(定义、存储、分类)
- 减少歧义
- 推理
- 问题
- 层级体系严格,出现二义性的问题,以及isa还是partof的问题
- 比较
- 树状结构,上下位严格IsA
- 优点,可以适用于知识推理
- 缺点,无法表示概念的二义性
- 分类体系Taxonomy
- 不严格:领域相关即可
- 比较
- 树状结构,上下位非严格IsA
- 优点,可以表示概念的二义性
- 缺点,不适用于推理,无法避免概念冗余
- 开放标签Folksonomy / Metadata
- 取消层级关系
- 概念类别冗余
- 存在多个表征同一概念的于一标签
- 类别标签由用户提供
- 比较
- 类别标签,更加开放
- 优点,能够涵盖更多的概念
- 缺点,如何进行标签管理
- 本体Ontology
知识体系构建
-
目标
- 术语、概念、类别
- 概念、类别层级体系
- 属性关系(继承)
- 约束(定义域、值域)
-
人工构建方法
- 确定领域任务(非通用、可穷举)
- 体系复用
- 定义术语、概念、类别
- 确定分类体系
- 确定关系、属性
- 定义约束
-
自动构建方法
- 任务
- 挖掘术语、概念、类别
- 构建概念、类别层级体系
- 挖掘属性关系
- 方法
- 基于结构化、半结构化数据的知识体系构建(模板挖掘——模板学习、噪声滤除)
- 结构化数据,置信度高,但规模较小
- 人工模板(同一网站具有唯一性)
- 半结构化数据,置信度较高,规模较大,形式多样,还有噪声
- 页面具有相似性,一定程度可以复用
- 模板学习和噪声滤除
- 页面具有相似性,一定程度可以复用
- 结构化数据,置信度高,但规模较小
- 基于非结构化数据的知识体系构建
- 纯文本,置信度低,复杂多样,规模很大
- 基于结构化、半结构化数据的知识体系构建(模板挖掘——模板学习、噪声滤除)
- 注意
- 目前不可直接使用、可以节省人力
- 通常只需要构建一次,人工构建实际可行
- 任务
-
半结构化数据:学习模板,抽取实体属性和相关属性值
- 半结构化信息快识别定位
- 属性名和属性值连续出现,结构连续出现
- 属性名确定,人工模板(结构化数据)
- 属性名与类别的对齐
- 根据类别标签回标
- 抽取模板学习
- 前缀:属性名到上一个属性名的最长公共后缀
- 后缀:属性名到下一个属性名的最长公共后缀
- 分隔符:属性名到下一个属性名的最长公共前缀
- 置信度估计
- 模板与属性名排序
- 高质量属性名产生的模板质量高
- 高质量模板抽取属性名质量高,所在网页质量高
- 高质量网页产生的模板质量高,抽取属性名质量高
- 构建一个图(属性名种子、文档、模板),利用随机游走进行排序,计算每个结点的置信度
-
- ,排序向量(随机游走步)
- ,邻接矩阵
- ,先验向量(是否已知为属性名)
- 属性名、属性值抽取
- 基于Bootstrapping的抽取
- 属性名和模板相互促进
- 召回率
- 已有属性名进行定位,召回率低
- 改进——利用模板实现块定位
- 半结构化信息快识别定位
-
非结构化数据
- 术语、概念抽取
- 生成术语候选
- n-grams
- 枚举所有可能性
- 通过ranking滤除噪声
- 基于模板的抽取
- 名词+名词的模板等
- n-grams
- 候选排序、过滤噪声
- 基于频率统计的方法
- C-value / NC-value:使用这两个值对短语置信度进行估计
- C-value,衡量预料中出现的高频的最长短语,
- 为包含的候选集合(包含的更长词),为预设的候选最长长度
- NC-value,额外考虑上下文信息,
- 为上下文词集合,为在上下文出现的频率,为语料中所有词的个数
- 搜索引擎验证,双引号强制全词搜索
- TF-IDF
- Domain Relevance,抽取领域相关的候选
- 表示候选在领域出现的概率
- 非术语,不同领域分布相似;术语,在目标领域内具有显著性
- 领域公式,Domain Consensus(信息熵)
- 非术语,不同领域出现概率类似;术语,不同领域概率不同,由明显的语义特性(熵会很大)
- C-value / NC-value:使用这两个值对短语置信度进行估计
- 基于主题模型的方法
- 聚类文档中同样主题的词
- 篇章中的词,以一定概率从主题中选取
- 不同的主题,词语出现的概率分布不同
- 提取不同主题中出现概率较大的词语
- 计算主题上的相似度
- 基于图排序的方法
- 借助PageRank的思想:被很多网页链接的网页更重要,被权值更高的网页链接,其重要性会增加
- TextRank:判断相关关系,更具共现关系,取一定长的窗判断是否共现
- 术语选择,随机游走计算每个词语的重要程度,按照该程度选择术语
- 基于频率统计的方法
- 可以认为是实体扩展的过程
- 给定一些实体(种子),自动挖掘与之相关、相似的同类型实体
- 基本假设:同类型的实体具有相同、相似的上下文
- Bootstrapping
- 生成术语候选
- 同义词挖掘
- 目标:将相同 / 相近语义的术语聚合在一起,形成概念
- 基于网络挖掘的同义词挖掘方法
- 基于词典挖掘的同义词挖掘方法(WordNet,HowNet)
- 基于聚类的同义词挖掘方法
- 层次聚类
- 自底向上过程
- 距离可以考虑使用语义表示计算(空间投射)
- 关系挖掘
- 上下位关系
- 基于模板学习的上下位关系抽取
- Bootstrapping:学习——过滤——上下位关系抽取——回标产生更多模板
- 模板质量评估:图估计,质量越高的模板抽取的概念以及概念关系越准确;置信度高的概念以及概念关系所在的模板置信度越高
- 基于词表示学习的上下文关系抽取
- 利用词的向量表示,计算词之间的上下文关系
- 对及其上位词,学习映射,使得
- 对一个新词,其上位词满足
- 词向量的运算很难只体现上下位关系
- 基于模板学习的上下位关系抽取
- 属性关系
- 针对某一概念、实体,抽取其属性关系,通常限定领域或限定类别
- 基于句法、词性的模板抽取方法
- 面对特定领域内文本的属性名抽取,可以利用额外信息
- 非监督的属性关系抽取
- surface / syntactic模板,获取实体间的语义关系表示
- 在此基础上对语义关系表示进行聚类,进而实现非监督的关系抽取
- 上下位关系
- 已有Ontology
- SUMO,目前最大的公共本体
- GeoNames
- 术语、概念抽取
知识融合
知识融合
- 整个不同语言、不同结构、不同模态的知识资源
- 差异性
- 属性定义不统一
- 分类体系不统一——需要对齐
- 来源不同知识源的实体共指
- 跨语言知识融合
- 应用:多知识库问答
- 任务定义:对于两个知识图谱和,其中和分别为两个图谱中的元素,知识融合的目标就是加你三元组,其中表示元素之间的关系,包括
- 目标:将两个知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序之间的交互建立互操作性
- 任务分解
- 本体匹配
- 侧重发现等价或相似的类、属性、或关系
- 本体对齐
- 实体对齐
- 侧重发现指称真实世界相同对象的不同实例
- 实体消解、实例匹配
- 本体匹配
- 核心问题:语义匹配(不同字符、语言、结构、表达)
- 文本相似性
- 字形、语言、语义
- 文本本身、借助外部资源
- 结构相似性
- 上下位层级关系、Domain、Range
- 单对匹配 / 集体(collective)匹配
- 文本相似性
知识融合基本方法
- 基于文本相似度的映射方法
- 基于字符串匹配的映射方法
- 汉明距离:,对应位置不同字符的个数
- 子串相似度:对和,最长公共子串为,相似度为
- n-gram相似度:表示字符串中长度为的子串集合,有相似度
- 编辑距离:插入、删除、替换的最少操作数(NLP有讲)
- 基于语言处理的映射方法
- 语言规范化:词切分、词形还原、停用词消除
- 基于语义匹配的映射方法
- 获取语义向量表示,基于距离度量函数计算相似度
- 核心问题:如何得到语义向量
- 利用外部资源(WordNet、HowNet)
- WordNet中的直接标注信息(上下位、同义、反义)
- WordNet中的Synset标注构建语义向量
- 基于搜索引擎的语义相似度计算(返回文档数)
- 为搜索引擎所有文档树数
- 利用外部资源(WordNet、HowNet)
- 基于词向量表示的语义匹配
- 利用上下文信息学习词的词表示向量
- 相似度similarity不等价于相关度relevance
- 同义关系 vs. 搭配关系
- 基于字符串匹配的映射方法
- 基于结构相似度的映射方法
- 基于内部结构的映射方法
- 面对实体内部结构信息
- 属性的Domain和Range
- 常用于对齐前的预处理,去掉明显不能对齐的实体
- 面对实体内部结构信息
- 基于外部结构的映射方法
- 基于图的图谱结构计算两个结点的相似度
- 基本假设:如果两个结点的邻居节点是类似的,这两个结点也是类似的
- 基于层级结构的相似度计算方法
- 拓扑结构相似度(边的数量表示路径)
- 规范化距离
- 基于共享父类的相似度(父类集合的交并比)
- 基于树编辑距离?
- 基于网络结构表示学习的映射方法
- 直接将实体和关系的向量表示进行相似度计算,学习深度特征
- TransE
- 联合知识表示学习(对已知可链接实体对两个KG进行约束)
- 双向监督训练(单独训练,预链接数据交替进行监督)
- 基于内部结构的映射方法
- 方法融合
- 多个方法一起使用
- 线性融合,不同相似度计算方法加权融合
- 迭代式融合
- 投票策略(解决不同方法之间的冲突)
- 全局寻优、联合推断(贝叶斯网络)
- 大规模知识图谱融合
- 效率问题
- 冲突问题
- 分而治之?如何划分
- 评价
- P,R,F1
- 基于检索的评价指标TopN