关系抽取之snowball算法

snowball基础之bootstrap原理:

 注:seed tuple 为初始时人工标注的表格数据。

关系抽取之snowball算法

bootstrap算法缺点:

每一步得到的规则和tuple好多是错误的,导致准确率下降很快。

针对此缺点,snowball进行了改进,加了3,4步,即对新生成的规则和tuple进行了筛选,过滤掉准确率低的。引入评分机制,根据分数来过滤掉错误的。

关系抽取之snowball算法

关系抽取之snowball算法

 此处词向量为onehot编码。

关系抽取之snowball算法

 

 

关系抽取之snowball算法

此处第三步规则的分数如何得到的有些没明白。

 

关系抽取之snowball算法