关系抽取之snowball算法
snowball基础之bootstrap原理:
注:seed tuple 为初始时人工标注的表格数据。
bootstrap算法缺点:
每一步得到的规则和tuple好多是错误的,导致准确率下降很快。
针对此缺点,snowball进行了改进,加了3,4步,即对新生成的规则和tuple进行了筛选,过滤掉准确率低的。引入评分机制,根据分数来过滤掉错误的。
此处词向量为onehot编码。
此处第三步规则的分数如何得到的有些没明白。
注:seed tuple 为初始时人工标注的表格数据。
每一步得到的规则和tuple好多是错误的,导致准确率下降很快。
针对此缺点,snowball进行了改进,加了3,4步,即对新生成的规则和tuple进行了筛选,过滤掉准确率低的。引入评分机制,根据分数来过滤掉错误的。
此处词向量为onehot编码。
此处第三步规则的分数如何得到的有些没明白。