信息抽取

信息抽取技术主要用于抽取：

信息抽取应用场景：
比如我们有以上一段话，需要进行实体抽取，以及实体间的关系抽取，接下来需要把这些信息整合成知识图谱的形式。

更多应用：

关键：把非结构化的数据转为化结构化的数据

实体抽取的开源工具：Stanford Parser, NLTK, Spacy, foolNLTK, HanNLP

命名实体识别方法：

开源知识库(通过信息抽取技术从Web文本中整合成的结构化的信息库)：

关系抽取的方法：

下面重点讲讲Bootstrap方法：
信息抽取以上图为例，我们已知一些organization和location的关系组（seed tuples），接下来如何应用这些已知数据提取更多的organization和location关系对呢？

首先，我们在文本中搜寻这些seed tuples
这些seed tuples所在的文本结构就是两者间的关系表达，比如
“Microsoft is located in RedMond”, “IBM is situated in Armonk”,由些，我们提取出"is located in"和"is situated in"作为pattern
接着，我们又可以利用这些pattern去提取新的organization和location