知识体系构建与知识融合

知识体系构建

知识体系

知识体系：对于知识数据的描述和定义——“元数据”
包含内容
- 词汇、类别、概念的定义和描述
- 概念之间的相互关系（分类关系 / 非分类关系）
- 公理（抽象规则）
与知识库的关系
- 知识体系：共享概念化的框架规范
- 知识库：服从于知识体系规定的知识单元载体
常用组织形式
- 本体Ontology
  - 特定领域内信息组织的形式，领域知识规范的抽象和描述
  - 对概念、属于及其相互关系的规范化描述
  - 真实世界的描述模型
  - 使用合适的逻辑形式化
  - 定义： $\langle C, I, R, T, V, \le, \bot, \in, = \rangle$
    - $C$ ，类别集合
    - $I$ ，实例集合
    - $R$ ，关系集合
    - $T$ ，数据类型集合
    - $V$ ，属性下的具体值集合
    - $\le$ ，专门化关系，存在于类别之间、关系之间以及数据类型之间
    - $\bot$ ，不包含关系，存在于类别之间、关系之间以及数据类型之间
    - $\in$ ，实例化关系，存在于实例与类别之间、值与数据类型之间
    - $=$ ，赋值关系，存在于 $I \times R \times (I \cup V)$ 上
  - 特点
    - 概念化：系统蕴含的语义结构
    - 显式化：显式定义
    - 规范化：机器可读
    - 公理化：一个群体共同认可
  - 应用
    - 管理知识（定义、存储、分类）
    - 减少歧义
    - 推理
  - 问题
    - 层级体系严格，出现二义性的问题，以及isa还是partof的问题
  - 比较
    - 树状结构，上下位严格IsA
    - 优点，可以适用于知识推理
    - 缺点，无法表示概念的二义性
- 分类体系Taxonomy
  - 不严格：领域相关即可
  - 比较
    - 树状结构，上下位非严格IsA
    - 优点，可以表示概念的二义性
    - 缺点，不适用于推理，无法避免概念冗余
- 开放标签Folksonomy / Metadata
  - 取消层级关系
  - 概念类别冗余
    - 存在多个表征同一概念的于一标签
    - 类别标签由用户提供
  - 比较
    - 类别标签，更加开放
    - 优点，能够涵盖更多的概念
    - 缺点，如何进行标签管理

知识体系构建

目标
- 术语、概念、类别
- 概念、类别层级体系
- 属性关系（继承）
- 约束（定义域、值域）
人工构建方法
- 确定领域任务（非通用、可穷举）
- 体系复用
- 定义术语、概念、类别
- 确定分类体系
- 确定关系、属性
- 定义约束
自动构建方法
- 任务
  - 挖掘术语、概念、类别
  - 构建概念、类别层级体系
  - 挖掘属性关系
- 方法
  - 基于结构化、半结构化数据的知识体系构建（模板挖掘——模板学习、噪声滤除）
    - 结构化数据，置信度高，但规模较小
      - 人工模板（同一网站具有唯一性）
    - 半结构化数据，置信度较高，规模较大，形式多样，还有噪声
      - 页面具有相似性，一定程度可以复用
        
        模板学习和噪声滤除
  - 基于非结构化数据的知识体系构建
    - 纯文本，置信度低，复杂多样，规模很大
- 注意
  - 目前不可直接使用、可以节省人力
  - 通常只需要构建一次，人工构建实际可行
半结构化数据：学习模板，抽取实体属性和相关属性值
- 半结构化信息快识别定位
  - 属性名和属性值连续出现，结构连续出现
  - 属性名确定，人工模板（结构化数据）
  - 属性名与类别的对齐 $\operatorname{score}(item, class) = \frac {\operatorname{count}(item, class)}{\operatorname{count}(item) \operatorname{count}(class)}$
  - 根据类别标签回标
- 抽取模板学习
  - 前缀：属性名到上一个属性名的最长公共后缀
  - 后缀：属性名到下一个属性名的最长公共后缀
  - 分隔符：属性名到下一个属性名的最长公共前缀
  - 置信度估计
    - 模板与属性名排序
    - 高质量属性名产生的模板质量高
    - 高质量模板抽取属性名质量高，所在网页质量高
    - 高质量网页产生的模板质量高，抽取属性名质量高
    - 构建一个图（属性名种子、文档、模板），利用随机游走进行排序，计算每个结点的置信度
    - $\vec r_i = c \widetilde {\bold W} \vec r_i + (1 - c) \vec e_i$
      - $\vec r_i$ ，排序向量（随机游走 $i$ 步）
      - $\widetilde W$ ，邻接矩阵
      - $\vec e_i$ ，先验向量（是否已知为属性名）
- 属性名、属性值抽取
- 基于Bootstrapping的抽取
  - 属性名和模板相互促进
- 召回率
  - 已有属性名进行定位，召回率低
  - 改进——利用模板实现块定位
非结构化数据
- 术语、概念抽取
  - 生成术语候选
    - n-grams
      - 枚举所有可能性
      - 通过ranking滤除噪声
    - 基于模板的抽取
      - 名词+名词的模板等
  - 候选排序、过滤噪声
    - 基于频率统计的方法
      - C-value / NC-value：使用这两个值对短语置信度进行估计
        
        C-value，衡量预料中出现的高频的最长短语， $\operatorname{Cvalue} = \begin{cases}\log_2|a|f(a) & \text{if } |a| = g \\ \log_2|a|(f(a) - \frac 1 {|C(a)|}\sum_k^{C(a)} f(k)) & \text{otherwise} \end{cases}$
        
        $C(a)$ 为包含 $a$ 的候选集合（包含 $a$ 的更长词）， $g$ 为预设的候选最长长度
        
        NC-value，额外考虑上下文信息， $\operatorname{NCvalue}(a) = \alpha \operatorname{Cvalue}(a) + (1 - \alpha) (\sum_{t \in C_a} f_a(t) \frac {f(t)}n)$
        
        $C_\alpha$ 为上下文词集合， $f_a(t)$ 为 $t$ 在 $a$ 上下文出现的频率， $n$ 为语料中所有词的个数
      - 搜索引擎验证，双引号强制全词搜索
      - TF-IDF
      - Domain Relevance，抽取领域相关的候选
        
        $\operatorname{DR}(t,k) = \frac{p(t | D_k)}{\sum_i^m p(t | D_i)}$
        
        $p(t | D_k)$ 表示候选 $t$ 在领域 $D_k$ 出现的概率
        
        非术语，不同领域分布相似；术语，在目标领域内具有显著性
      - 领域公式，Domain Consensus（信息熵）
        
        $\operatorname{RC}(t, k) = \sum_{d \in D_k} p(t | d) \log \frac 1 {p(t | d)}$
        
        非术语，不同领域出现概率类似；术语，不同领域概率不同，由明显的语义特性（熵会很大）
    - 基于主题模型的方法
      - 聚类文档中同样主题的词
      - 篇章中的词，以一定概率从主题中选取
      - 不同的主题，词语出现的概率分布不同
      - 提取不同主题中出现概率较大的词语
      - 计算主题上的相似度
    - 基于图排序的方法
      - 借助PageRank的思想：被很多网页链接的网页更重要，被权值更高的网页链接，其重要性会增加
      - TextRank：判断相关关系，更具共现关系，取一定长的窗判断是否共现
      - 术语选择，随机游走计算每个词语的重要程度，按照该程度选择术语
  - 可以认为是实体扩展的过程
    - 给定一些实体（种子），自动挖掘与之相关、相似的同类型实体
    - 基本假设：同类型的实体具有相同、相似的上下文
    - Bootstrapping
- 同义词挖掘
  - 目标：将相同 / 相近语义的术语聚合在一起，形成概念
  - 基于网络挖掘的同义词挖掘方法
  - 基于词典挖掘的同义词挖掘方法（WordNet，HowNet）
  - 基于聚类的同义词挖掘方法
  - 层次聚类
    - 自底向上过程
    - 距离可以考虑使用语义表示计算（空间投射）
- 关系挖掘
  - 上下位关系
    - 基于模板学习的上下位关系抽取
      - Bootstrapping：学习——过滤——上下位关系抽取——回标产生更多模板
      - 模板质量评估：图估计，质量越高的模板抽取的概念以及概念关系越准确；置信度高的概念以及概念关系所在的模板置信度越高
    - 基于词表示学习的上下文关系抽取
      - 利用词的向量表示，计算词之间的上下文关系
      - 对 $x$ 及其上位词 $y$ ，学习映射 $\Phi$ ，使得 $\Phi^\ast = \arg \min_\Phi \frac 1N \sum \|\Phi x - y\|^2$
      - 对一个新词 $z$ ，其上位词 $w$ 满足 $\|\Phi z - w\|^2 \le \delta$
      - 词向量的运算很难只体现上下位关系
  - 属性关系
    - 针对某一概念、实体，抽取其属性关系，通常限定领域或限定类别
    - 基于句法、词性的模板抽取方法
    - 面对特定领域内文本的属性名抽取，可以利用额外信息
    - 非监督的属性关系抽取
      - surface / syntactic模板，获取实体间的语义关系表示
      - 在此基础上对语义关系表示进行聚类，进而实现非监督的关系抽取
- 已有Ontology
  - SUMO，目前最大的公共本体
  - GeoNames

知识融合

整个不同语言、不同结构、不同模态的知识资源
差异性
- 属性定义不统一
- 分类体系不统一——需要对齐
- 来源不同知识源的实体共指
- 跨语言知识融合
应用：多知识库问答
任务定义：对于两个知识图谱 $O$ 和 $O^\prime$ ，其中 $I$ 和 $I^\ast$ 分别为两个图谱中的元素，知识融合的目标就是加你三元组 $\langle I, I^\prime, r \rangle$ ，其中 $r$ 表示元素之间的关系，包括 $\le \ge = \bot$
目标：将两个知识图谱融合为一个统一、一致、简洁的形式，为使用不同知识图谱的应用程序之间的交互建立互操作性
任务分解
- 本体匹配
  - 侧重发现等价或相似的类、属性、或关系
  - 本体对齐
- 实体对齐
  - 侧重发现指称真实世界相同对象的不同实例
  - 实体消解、实例匹配
核心问题：语义匹配（不同字符、语言、结构、表达）
- 文本相似性
  - 字形、语言、语义
  - 文本本身、借助外部资源
- 结构相似性
  - 上下位层级关系、Domain、Range
  - 单对匹配 / 集体（collective）匹配

知识融合基本方法

基于文本相似度的映射方法
- 基于字符串匹配的映射方法
  - 汉明距离： $\delta(x, t) = \frac {(\sum_i s[i] \neq t[i]) + ||s|-|t||}{\max(|s|,|t|)}$ ，对应位置不同字符的个数
  - 子串相似度：对 $x$ 和 $y$ ，最长公共子串为 $t$ ，相似度为 $\sigma(x, y) = \frac {2 |t|} {|x| + |y|}$
  - n-gram相似度： $\operatorname{ngram}(x, n)$ 表示字符串 $x$ 中长度为 $n$ 的子串集合，有相似度 $\bar \sigma (s, t) = \frac {\operatorname{ngram}(s, n) - \operatorname{ngram}(t, n)}{\min(|s|, |t|) - n + 1}$
  - 编辑距离：插入、删除、替换的最少操作数（NLP有讲）
- 基于语言处理的映射方法
  - 语言规范化：词切分、词形还原、停用词消除
- 基于语义匹配的映射方法
  - 获取语义向量表示，基于距离度量函数计算相似度
  - $\sigma_V(s, t) = \frac {\sum_{i \in |V|} \vec s_i \times \vec t_i}{\sqrt{\sum_{i \in |V|} \vec s_i^2 \times \sum_{i \in |V|} \vec v_i^2}}$
  - 核心问题：如何得到语义向量
    - 利用外部资源（WordNet、HowNet）
      - WordNet中的直接标注信息（上下位、同义、反义）
      - WordNet中的Synset标注构建语义向量
    - 基于搜索引擎的语义相似度计算（返回文档数）
      - $\operatorname{NGD}(x, y) = \frac {\max\{\log f(x), \log f(y)\} - \log f(x, y)}{\log M - \min\{\log f(x), \log f(y)\}}$
      - $M$ 为搜索引擎所有文档树数
  - 基于词向量表示的语义匹配
    - 利用上下文信息学习词的词表示向量
  - 相似度similarity不等价于相关度relevance
    - 同义关系 vs. 搭配关系
基于结构相似度的映射方法
- 基于内部结构的映射方法
  - 面对实体内部结构信息
    - 属性的Domain和Range
    - 常用于对齐前的预处理，去掉明显不能对齐的实体
- 基于外部结构的映射方法
  - 基于图的图谱结构计算两个结点的相似度
  - 基本假设：如果两个结点的邻居节点是类似的，这两个结点也是类似的
  - 基于层级结构的相似度计算方法
    - 拓扑结构相似度 $\delta(e, e^\prime) = \min_{c \in o} [\delta(e, c) + \delta(e^\prime, c)]$ （边的数量表示路径）
    - 规范化距离 $\bar \delta(e, e^\prime) = \frac {\delta(e, e^\prime)}{\max_{c, c^\prime \in o}\delta(c, c^\prime)}$
    - 基于共享父类的相似度 $\sigma(c, c^\prime)$ （父类集合的交并比）
    - 基于树编辑距离？
- 基于网络结构表示学习的映射方法
  - 直接将实体和关系的向量表示进行相似度计算，学习深度特征
  - TransE
  - 联合知识表示学习（对已知可链接实体对两个KG进行约束）
  - 双向监督训练（单独训练，预链接数据交替进行监督）
方法融合
- 多个方法一起使用
- 线性融合，不同相似度计算方法加权融合
- 迭代式融合
- 投票策略（解决不同方法之间的冲突）
- 全局寻优、联合推断（贝叶斯网络）
大规模知识图谱融合
- 效率问题
- 冲突问题
- 分而治之？如何划分
评价
- P，R，F1
- 基于检索的评价指标TopN

UCAS-AI学院-知识图谱专项课-第5讲-课程笔记

UCAS-AI学院-知识图谱专项课-第5讲-课程笔记

知识体系构建与知识融合

知识体系构建

知识体系

知识体系构建

知识融合

知识融合

知识融合基本方法

相关推荐