SpellGCN论文笔记

文章目录


会议:ACL2020

机构:阿里蚂蚁金服

摘要概括:现有方法尝试纳入汉字之间的相似性知识,然而,他们将相似性知识作为外部输入资源或仅仅是启发式规则。本文使用图卷积网络来纳入汉字相似性知识,图卷积网络建模了字之间的先验依赖知识。

解决问题:之前引入模糊集的方法只是利用模糊集来挑选候选字,而不是显示地建模字符之间的关系。本文提出新的方法将语音和形状的相似性信息整合到语义空间中

直观效果
SpellGCN论文笔记
BERT能产生语义合理的修正,但是没有考虑语音的修正

相关工作
之前方法的介绍。之前引入模糊集的方法只是利用模糊集来挑选候选字,而不是显示地建模字符之间的关系。介绍了图卷积网络,其用于关系抽取、时空建模、多标签任务中标签之间的关系。本文是第一次将图卷积网络用于中文拼接检查任务。

模型
取每个字在bert最后一层的向量,接一个全连接做多分类:
SpellGCN论文笔记

针对不同的字符,W会不同
SpellGCN论文笔记

  • 如果该字在模糊集,则用图卷积网络(图卷积网络做了一个函数映射,将模糊集里的字符映射到N*D维的矩阵,N是字符个数,D是字符的维度)生成的H矩阵
  • 如果不在,则用BERT抽取的字符嵌入向量

实验
SpellGCN论文笔记
只用了28W左右的数据来做fine-tune
SpellGCN论文笔记
Bert模型已经超过了之前所有的模型,加上GCN之后提升有1-3个点
作者还做了两个消融实验,一是关于GCN层数的实验,二是关于SpellGCN的连接方式

字符嵌入的可视化展示
字符嵌入也就是W矩阵,因为维度过大,用t-SNE向量降维到2

  • 拼音相似
    SpellGCN论文笔记
  • 字形相似
    SpellGCN论文笔记

BERT得到的字向量只包含了语义信息但是没有包含相似性信息。
用了图卷积网络得到的字符相似信息后,相似的字符会行成一个簇,并与其他簇有明显的界限。这样字符向量就包含了语义信息和相似性信息,更好地帮助纠错