什么是知识图谱?

什么是知识图谱?
知识图谱(knowledge graph,KG)代表实体的相互链接描述的集合——现实世界的对象,事件,情况或抽象概念,其中:

  • 描述具有正式的结构,允许人员和计算机以高效且明确的方式对其进行处理;
  • 实体描述相互作用,形成一个网络,其中每个实体代表与之相关的实体描述的一部分。

关键特征

知识图谱结合了几种数据管理范例的特征,可以理解为:

  • 数据库,因为可以通过结构化查询来查询数据;
  • ,因为它可以像其他任何网络数据结构一样进行分析;
  • 知识库,因为其中的数据具有形式语义,可用于解释数据和推断新事实。

当使用形式语义来表达和解释知识图谱的数据时,有许多表示和建模工具:

  • 。大多数情况下,实体描述包含相对于类层次结构的实体分类。例如,当处理一般新闻或商业信息时,可能会有“人员”、“组织”和“位置”等类。个人和组织可以具有共同的超类代理。位置通常有许多子类,例如国家、人口稠密的地方、城市等。类的概念是由面向对象的设计所借用的,其中每个实体应完全属于一个类。
  • 关系类型。实体之间的关系通常用类型标记,这些类型提供有关关系性质的信息,例如朋友、亲戚、竞争对手等。关系类型也可以有正式的定义,例如亲子关系是子亲关系的逆关系,它们都是亲戚关系的特例,是对称关系。或者定义子区域(sub-region)和子区域(sub-region)是传递关系。
  • 类别。实体可以与类别相关联,所属类别描述了其语义的某些方面,例如“四大顾问”或“十九世纪作曲家”。一本书可以同时属于所有这些类别:“关于非洲的书籍”,“畅销书”,“意大利作家的书籍”,“儿童书籍”等。这些类别通常按分类法进行描述和排序,
  • 自由文本描述。可以添加“人类友好的文本”来进一步阐明实体的设计意图并改善搜索。
  • 本体。它们充当知识图谱的开发者及其用户之间的正式定义。用户可以是另一个人或者软件应用程序,他们想要以可靠且精确的方式使用数据。它确保对数据及其含义有共同的理解。

什么不是知识图谱?

并非每个RDF图都是知识图谱。例如,一组统计数据,如以RDF表示的国家/地区的GDP数据不是KG。数据的图表示通常是有用的,但是可能不必捕获数据的语义知识。只需将字符串“意大利”与字符串“GDP”和数字“1.95万亿”相关联,而无需定义国家或国家的“国内生产总值”就足够了。构成KG的是连接和图,而不是用来表示数据的语言。

并非每个知识库都是知识图谱。 KG的一项关键功能是实体描述应相互链接。一个实体的定义包括另一实体。此链接是图形成的方式。 (例如,A为B,B为C,C具有D,A具有D)。没有形式结构和语义的知识库,例如关于软件产品的问答“知识库”,也并不代表KG。可能会有一个专家系统,该系统不是以图的格式组织数据的集合,而是使用自动演绎过程(例如一组“如果-则”规则)来促进分析。

知识图谱的著名例子

  • Google知识图谱。Google于2012年发布了知识图谱,从而使该术语大受欢迎。但是,有关其组织、覆盖范围和规模的技术细节很少。在Google自己的项目之外使用这种知识图谱的方法也非常有限。
  • DBPedia。该项目利用了维基百科信息框中固有的结构来创建4.58个事物的巨大数据集(链接https://wiki.dbpedia.org/about)和一个本体,该本体涵盖了诸如人物、地点、电影、书籍、组织、物种、疾病等实体的百科全书式内容。此数据集是开放链接数据运动的核心。对于组织而言,与数百万众包实体一起启动其内部知识图谱,这是无价的。

Geonames。在知识共享下,Geonames数据集的用户可以访问2500万个地理实体和要素。

Wordnet。英语最著名的词汇数据库之一,提供定义和同义词。通常用于增强NLP和搜索应用程序的性能。

FactForge。经过多年在新闻出版行业的专业知识发展,Ontotext制作了他们的链接开放数据(LOD)知识图谱和有关人员、组织和位置的新闻文章。它合并了来自上述KG的数据以及诸如金融行业本体(FIBO)之类的专门本体。它展示了KG和GraphDB在媒体监视和行业趋势分析方面的独特能力。

知识图谱有什么用?

几年前,我们从大数据(Big Data)这个流行词转移到了智能数据(Smart Data. )。拥有前所未有的数据量促使需要建立一个能够反映我们对信息的复杂理解的数据模型。为了使数据变得智能,机器不再需要被定义为“先验”的不灵活和脆弱的数据模式所束缚。我们需要可以代表“现实世界”和其中所缠结关系的数据存储库。所有这些都需要以机器可读的方式完成,并具有正式的语义以实现自动推理,从而补充和促进我们自己的推理。

许多特定的用途和应用都依赖于知识图谱。例子包括数据和大量信息服务,例如智能内容和程序包重用,响应和上下文相关内容推荐,自动知识发现,语义搜索。智能代理,公司配置文件和排名,监管文件中的信息发现,药物警戒文献监视等。

与文本分析的相互作用

现代文本分析技术广泛使用了知识图谱:

  • 大图提供了背景知识、类人概念和实体意识,从而可以更准确地解释文本;
  • 分析的结果是语义标记(注释),这些标记将文本中的引用链接到图中的特定概念。 这些标签表示结构化的元数据,可以更好地进行搜索和进一步分析。
  • 可以添加从文本中提取的事实以丰富知识图谱。

参考资源

[1] What is a Knowledge Graph?