中文词向量学习记录-综述
最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章:
参考原文链接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finished
Paper
-
Component-Enhanced Chinese Character Embeddings
这是一篇2015年发表在EMNLP(Empirical Methods in Natural Language Processing)
会议上的论文,作者来自于香港理工大学 — 李嫣然。
介绍:在本文中,考虑将每个汉字的组件构成一个component列表(可以从在线新华词典中获取相应的component列表),其中将部首信息放在列表的最前面,E:component列表,C:上下文词,Z:目标词。 &&:结合E和C,基于CBOW框架计算出当前目标词的一个词向量表示。
-
Joint Learning of Character and Word Embeddings
这是一篇2015年发表在IJCAI (International Joint Conference on Artificial Intelligence)
会议上的论文,作者来自于清华大学 — 陈新雄,徐磊。
介绍:这是一篇基于汉字的CWE模型:基于已有的词向量,引入汉字来增强词的效果。核心思想:把CBOW中的词替换成词和字的联合表示,w:word embedding, c:character embedding,这种联合表示既可以是addition,也可以是concate.
-
Improve Chinese Word Embeddings by Exploiting Internal Structure
这是一篇2016年发表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)
会议上的论文,作者来自于中国科学技术大学 — Jian Xu。
介绍:基于前面的CWE模型
,虽然CWE已经考虑了词的内部组成,增加了语义信息的表示,然而,却忽略了一些问题,在每一个词和他们的组成部分(单字)之间,CWE把单字和词之间的贡献作为一致的,这篇论文提出,他们之间的贡献度应该是不同的
,CWE忽略了这一问题,本文要利用外部语言来获取语义信息,计算词与单字之间的相似度来表示其贡献的不同,完善相关工作。
论文提出了联合学习词与字的方法,该方法可以消除中文单字的歧义性,也可以区别出词内部无意义的组成,实验结果表明在 Word Similarity
和 Text Classification
上验证了其有效性。
-
Multi-Granularity Chinese Word Embedding
这是一篇2016年发表在EMNLP(Empirical Methods in Natural Language Processing)
会议上的论文,作者来自于信息内容安全技术国家工程实验室 — 殷荣超。
介绍:没有仔细阅读
-
Learning Chinese Word Representations From Glyphs Of Characters
这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)
会议上的论文,作者来自于台湾大学 — Tzu-Ray Su 和 Hung-Yi Lee。
介绍:这是一篇基于像素的GWE模型,这篇论文的出发点也很新颖,中文汉字可以认为是由图形组件组成的,具有丰富的语义信息,基于此,提出了一个新的学习中文词向量的方法,通过图形字符(character glyphs
)来增强词的表示,character glyphs通过图像卷积从位图(bitmaps)中编码得来,character glyphs特征加强了word的表示,也提高了character embedding。這篇论文虽然是在繁体中文进行的改进,不过idea同样也可以应用在简体中文中。在 Word Similarity
和 Word Analogy
上验证了其实验效果。该模型部分也是分为了几个阶段,
第一个阶段是通过convAE从位图中抽取glyph特征。
第二阶段是在已有的中文词向量模型中进行改进提高,像CWE,MGW模型。
第三阶段是直接使用glyph特征学习中文词向量表示。
-
Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)
会议上的论文,作者来自于香港科技大学 — Jinxing Yu。
介绍:中文汉字包含了丰富的语义信息,这篇论文提出了一个联合学习word,character和更加细粒度的subcharacter的方法来学习word embedding.其中:
w_i代表目标词;
w_i+1,w_i-1代表上下文词;
c_i-1,c_i+1代表上下文词的character;
s_i+1,s_i-1代表上下文词的subcharacter(radical),
s_i代表目标词的subcharacter(radical)。
-
Enriching Word Vectors with Subword Information
这是一篇2017年发表在ACL(Association for Computational Linguistics)
会议上的论文,作者来自于Facebook AI Research — Piotr Bojanowski ,Edouard Grave 。
介绍:这篇文章是这个系列中的唯一一篇针对西方语言的词向量训练方法,其主要是因为为后续的cw2vec的提出奠定了很好的基础。在英文中,每一个单词由若干个字母组成,单词的词义和其中的组成是有很大的关系的,这篇论文的核心思想就是采用单词的n-gram特征
学习词向量的表示,并取得了很好的实验效果。
这篇论文提出的方法也很简单,在每个word的前后分别添加 < 与 >
字符,作为这个单词的开始于结束,还有就是对于只有一个字母的word进行表示,然后抽取其n-gram词袋特征
,具体来说,以3-gram
为例,单词where
,可以被表示成<wh,whe,her,ere,re>
,单词a
,可以表示为<a>
,这篇论文抽取的是3 至 6的n-gram
,那么where的所有表示就是,
3-ngram:<wh,whe,her,ere,re>,<whe
,
4-gram:<whe,wher,here,ere>
,
5-gram:<wher,where,here>
,
6-gram:<where,where>
,
以上就是where的所有表示,除此之外,还把原单词<where>
加入到n-gram中,最后word采用的是所有的n-gram的和。
-
Radical Enhanced Chinese Word Embedding
这是一篇2018年发表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)
会议上的论文,作者来自于电子科技大学 — Zheng Chen 和 Keqi Hu
介绍:模型是基于CBOW来进行的改进,通过Radical(部首)来增强word embedding,称之为RECWE模型
,具体的模型结构如下图所示,模型结构分为了两个部分:
左边的是word prediction module
,是一个典型的CBOW模型结构,其中w_i代表的是目标词,w_i+1、w_i-1代表的是上下文词,h_i1代表是的上下文词的隐层表示。
右边是 sub-information prediction module
,它与 word prediction module并行存在,其中的c、s、r与word prediction module 中的w相对应,分别是上下文词与目标词的character、component、radical
,h_i2代表的是左右的特征隐层表示。在这部分,也存在CWE模型
中一字多义,音译词等影响,他们考虑使用word来构建h_i2。对 h_i1 和 h_i2 都采用了average处理
-
cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
这是一篇2018年发表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)
会议上的论文,作者来自于蚂蚁金服人工智能部 — 曹绍升 。
介绍:前面的中文词向量的训练都是结合了汉字的部首信息,这一篇文章提出一个新颖的点:基于汉字的笔画进行捕获单词的信息。提出了“n元笔画”的概念。所谓“n元笔画”,即就是中文词语(或汉字)连续的n个笔画构成的语义结构。
cw2vec在Skip-Gram基础之上进行改进,把词语的n-gram笔画特征信息代替词语进行训练,cw2vec模型如下图。
所以:
-
Glyce: Glyph-vectors for Chinese Character Representations
2019年,香侬科技提出了一种汉字字形向量 Glyce。根据汉字的进化过程,采用了多种汉字古今文字和多种书写风格,专为中文象形文字建模设计了一种田字格 CNN架构。Glyce 在13个任务上面达到了很好的性能。
介绍:
References
[1] Component-Enhanced Chinese Character Embeddings
[2] Joint Learning of Character and Word Embeddings
[3] Improve Chinese Word Embeddings by Exploiting Internal Structure
[4] Multi-Granularity Chinese Word Embedding
[5] Learning Chinese Word Representations From Glyphs Of Characters
[6] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
[7] Enriching Word Vectors with Subword Information
[8] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[9] Radical Enhanced Chinese Word Embedding
[10] Glyce: Glyph-vectors for Chinese Character Representations