小象学院知识图谱学习笔记(一)
知识图谱的技术体系
- 知识表示
- 知识抽取
- 知识融合
- 知识众包
- 知识推理
- 知识链接
- 可视化
- 语义搜索
- 知识问答
知识表示
- 知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程
- 方法
从早期的基于数理逻辑的知识表示逐步转化成为基于向量空间学习的分布式知识表示 - 语义网知识表示框架
- RDF: 基于三元组的断言模型(Triple-based Assertion model)
- RDF图: 有向标记图(Directed Labeled Graph)
基本数据模型:有向标记图 - RDFS: Simple Vocabulary and Schema
为RDF定义许多小的词汇集,如:Class,subClassOf,type,Property,subPropertyOf,Domain,Range - OWL: Web Ontology Language
本体:这个概念本身源自于哲学,提供了更加丰富更加强大的一些概念层的建模,构建一个领域的知识图谱
OWL:因为在Web上有各种各样的领域知识,这些领域知识可能是在结构化数据当中,也可能是在半结构化数据中,也可能在非结构化的文本数据当中,那我们怎么通过一个规范来定义在Web上的这些知识,怎么使用本体语言进行描述呢?这就产生了OWL. - OWL extends RDF Schema
因为RDF Schema是一个很小的词汇,OWL就进一步扩展了这些词汇 - OWL示例
- SPARQL(SPARQLProtocol and RDF Query Language)
RDF的查询语言(基于RDF数据模型)
可以对不同的数据集撰写复杂的连接
由所有主流图数据库支持 - JSON-LD:数据交换格式
JSON for Linking Data:适用于作为程序之间做数据交换,在网页中嵌入语义数据和Restful Web Service - 知识图谱的分布式表示 --KG Embedding
在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间 - 方法
1、张量分解
张量:多维的矩阵
主要用于刻画实体和关系之间的表示
2、神经网络
3、距离模型
知识抽取:NLP + KR
- 知识抽取的主要方法
- 知识工程
- 正则表达式
- 模板匹配
- 规则约束
- 基于本体的抽取
- 知识挖掘
- 基于模型的抽取
- 模型
SVM、Logistic Model
条件随机场(CRF)
LSTM等循环神经网络 - 训练
有监督学习
无监督聚类
远程监督
- 模型