AI辅助构建知识图谱:关系抽取
向AI转型的程序员都关注了这个号????????????
机器学习AI算法工程 公众号: datayx
完整代码获取方式:
关注微信公众号 datayx 然后回复 关系抽取 即可获取。
类别名称和定义
模型
构建训练样本
之前没有做 Relation Extraction 的经验,最直觉的想法是当成一个二分类问题来做。先生成 Candidate Entity Pairs,做一些简单的过滤,然后利用训练集中的 Relation 数据给 Candidate Entity Pairs 打 0 或者 1 的标签。
用中文句号 (。) 做句子切分,选取 size=2
, step=1
的滑动窗口来生成句子。即每个句子包含原始文章中的2句话。接着把每个句子中出现的 entities 做个排列组合,把不存在于比赛要求的 10 个 relation type 中的组合过滤掉,作为 candidate entity pairs。
向量化
对每个样本进行向量化,提取 5 个向量作为模型的输入。
char id sequence
为转化为字符id后的句子文本序列entity labels vector
为代表 entity 类别的向量from entity mask
用 [1] 标记出 from_entity 的位置,剩余位置补 [0]to entity mask
用 [1] 标记出 to_entity 的位置,剩余位置补 [0]entity distance
为一个带符号的实数,用来表示两个 entity 的距离
神经网络结构
效果评估
复赛采用 F1-Score 来衡量模型效果。最终这个 baseline model 线上的成绩为 0.733
阅读过本文的人还看了以下:
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注