阿里巴巴、狗尾草、苏大联合论文：基于对抗学习的众包标注用于中文命名实体识别

国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办，据机器之心了解，阿里巴巴共有 11 篇论文被接收。机器之心 AAAI 2018 论文专栏，将会对其中的数篇论文进行介绍，同时也欢迎读者推荐更多优质的 AAAI 2018 接收论文。

本文介绍了阿里巴巴业务平台事业部、深圳 Gowild（中文：狗尾草）智能科技有限公司、苏州大学联合发布的论文《Adversarial Learning for Chinese NER from Crowd Annotations》。该论文提出了一种在中文 NER 任务上，利用众包标注结果来训练模型的方法。

1. 文章目的与思想

为了能用较低的成本获取新的标注数据，我们采用众包标注的方法来完成这个任务。众包标注的数据是没有经过专家标注员审核的，所以它会包含一定的噪声。在这篇文章中，我们提出一种在中文 NER 任务上，利用众包标注结果来训练模型的方法。受到对抗学习的启发，我们在模型中使用了两个双向 LSTM 模块，来分别学习众包标注数据中的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中，以不同标注员作为分类目标进行对抗学习，从而优化公有模块的学习质量，使之收敛于真实数据（专家标注数据）。我们认为这两个模块学习到的信息对于任务学习都有积极作用，并在最终使用 CRF 层完成 ne 标注。

模型如下：

阿里巴巴、狗尾草、苏大联合论文：基于对抗学习的众包标注用于中文命名实体识别

1. 数据使用：

我们在对话数据和电商数据上对模型的性能进行验证。

1）对话数据是由 gowild 公司提供的，我们让 43 位标注员在两万句语料上标注「人名」和「歌名」实体。我们认为这份数据非常适合我们的任务。

（1）若让一位专家标注员标注对话数据，由于他的认知是有限的，所以当他出现标注失误时对模型的影响是比较大的。在这种情况下，多位标注员可以在一定程度上弥补单个标注员对于「歌名」和「人名」的认知不足。例如：歌手「周传雄」，但并不是所有人都知道他的另一个称呼「小刚」。多人的知识面肯定要比一个人来的广。

（2）人机对话语料中包含一定比例的语法错误：

● 你怎么子我都看的手机死机了，在弄自己开门进来干嘛都记得。

● 你说谢谢的诗意哥哥吗？

不同的标注员对于上述句子的语义理解可能是不同的，我们也希望模型能学习到这些特征，使模型能更好收敛到最真实的数据分布，提高模型的泛化能力。

最终，我们的模型在对话数据上取得了近一个点的 F1 提升。

阿里巴巴、狗尾草、苏大联合论文：基于对抗学习的众包标注用于中文命名实体识别

2）电商数据是由阿里巴巴提供。首先我们让五位标注员对标题数据和用户请求数据进行标注，目标是标注出已定义好的五类实体：品牌、产品、型号、规格、原料，每句标注任务随机分配给两位标注员。对于标注员的标注结果，我们通过样本抽样，分析得到造成标注噪声（标注不一致）的主要原因是不同标注员对于标注规范和每一句标注样例的认识是不同的。特别是在标题数据集中，产品、型号实体的边界定义非常容易造成标注不一致。

在上述众包标注得到的数据集上训练我们论文中提出的模型，可以得到一个点左右的提升：

阿里巴巴、狗尾草、苏大联合论文：基于对抗学习的众包标注用于中文命名实体识别

文章分块解析：

阿里巴巴、狗尾草、苏大联合论文：基于对抗学习的众包标注用于中文命名实体识别

相关推荐