知识图谱(历史回顾及技术挑战)
知识图谱的基础知识
什么是知识?
知识的形成分为下面四个部分,数字附上量纲信息结合生活尝试变成知识,如今天13度,直接穿件衣服就出去啦
知识的体系主要有陈述性知识和程序性知识,右侧游戏规则需要认为设置,AlphaGo Zero还是需要知识
10年谷歌提取出来,以前搜索主要是字符串匹配,后来谷歌将零散的信息结合起来,变成知识图谱
没有出现知识图谱之前,搜索爱因斯坦,会出现字符串匹配现象如下左图,右图是出现知识图谱之后,会出现信息卡片,爱因斯坦经历、名人等信息,Google提出应用
1、知识图谱历史回顾
主要三个时代:本体时代、语义网时代、知识图谱时代
本体时代:
本体是一个不同实体间共享的概念,例如家具,床、椅子,家具被人使用
知识图谱例子:
WordNet计算机可读的词典
自然语言处理中的基础组件
语义网时代:
互联网中的知识通过网页链接起来,语义网主要以RDF形式构建知识图谱
数据来源
知识图谱时代:
语义时代是以RDF形式构建知识图谱代表比较大,后来大家纷纷推出自己的知识图谱,以属性图管理的方式构建
知识图谱比较火的原因如下几条:1、机器学习成熟 2、图数据库成熟 3、行业成功案例涌现 4、自然语言处理技术成熟
小结:
知识图谱是一种实体之间关系的语义描述,形式化表示(如:RDF,RDFS,OWL)
实体(Entities):
真实世界对象(things,places,people)
抽象概念(genres,religions,professions)
关系(Relationships)
将实体按语义关系连接成一张大网
语义描述(Semantic descriptions)
类别和属性
上面是按照时代发展角度来考虑知识图谱的,从技术角度来考虑知识图谱:
人工构建知识图谱
WordNet
CYC
基于Wikipedia的开放知识图谱
Yago:Wikipedia + WordNet
DBPedia:基于社区抽取Wikipedia结构化信息
Wikidata、BabelNet
基于文本抽取知识图谱
NELL、Knowledge Vault、Probase
领域知识图谱
金融、公安等
现有知识图谱不足,对时空性的建模不足
2、知识图谱生命周期概述
知识图谱的生命周期
知识图谱技术生态
3、构建领域知识图谱的挑战
去做领域知识图谱构建
信息融合,数据融合需求迫切
个人服务和企业服务隐私等都有不同
我们需要:可自由扩展的数据模式
企业迫切需要将非结构化数据结构化
行业智能问答大幅降低数据使用门槛
基于事实图谱数据存储、融合、分析统一平台,为用户提供统一的消费入口,以不同的形态(检索、分析、可视化)展示给用户