AI辅助构建知识图谱:关系抽取

AI辅助构建知识图谱:关系抽取

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程  公众号: datayx

完整代码获取方式:

关注微信公众号 datayx  然后回复 关系抽取 即可获取。

类别名称和定义

AI辅助构建知识图谱:关系抽取

AI辅助构建知识图谱:关系抽取

模型

构建训练样本

之前没有做 Relation Extraction 的经验,最直觉的想法是当成一个二分类问题来做。先生成 Candidate Entity Pairs,做一些简单的过滤,然后利用训练集中的 Relation 数据给 Candidate Entity Pairs 打 0 或者 1 的标签。

AI辅助构建知识图谱:关系抽取

用中文句号 (。) 做句子切分,选取 size=2, step=1 的滑动窗口来生成句子。即每个句子包含原始文章中的2句话。接着把每个句子中出现的 entities 做个排列组合,把不存在于比赛要求的 10 个 relation type 中的组合过滤掉,作为 candidate entity pairs。

向量化

AI辅助构建知识图谱:关系抽取

对每个样本进行向量化,提取 5 个向量作为模型的输入。

  • char id sequence 为转化为字符id后的句子文本序列

  • entity labels vector 为代表 entity 类别的向量

  • from entity mask 用 [1] 标记出 from_entity 的位置,剩余位置补 [0]

  • to entity mask 用 [1] 标记出 to_entity 的位置,剩余位置补 [0]

  • entity distance 为一个带符号的实数,用来表示两个 entity 的距离

神经网络结构

AI辅助构建知识图谱:关系抽取


效果评估

复赛采用 F1-Score 来衡量模型效果。最终这个 baseline model 线上的成绩为 0.733


阅读过本文的人还看了以下:

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

AI辅助构建知识图谱:关系抽取

长按图片,识别二维码,点关注

AI辅助构建知识图谱:关系抽取