NLP深度学习 —— CS224学习笔记4
关键词:内在和外在评估,相似评估任务中超参数的影响,人类判断和词向量距离的相关性,用语境处理词歧义,窗口分类。
词向量和词嵌入交叉使用
1、词向量评估
我们讨论了例如Word2Vec和GloVe等方法,来训练和发现语义空间中自然语言词的隐含向量表征。
现在来定量评估这种技巧产生向量的质量。
1)内在评估
考虑一个例子,最终目的是建立一个问答系统,使用词向量作为输入。 一种方法是训练一个机器学习系统:
a 将词作为输入
b 将他们转化为词向量
c 将词向量作为机器学习系统的输入
d 将系统生成的词向量映射到自然语言模型
e 生成答案
我们需要建立最优的词向量表征,以使它们可被用于下游子系统,因此需要调超参数。
理想状态是在参数变化时重新训练整个系统,但实际中由于上述步骤c一般是深度神经网络有百万个参数,我们需要一个简便的内在评估技巧。显然的一个条件是内在评估与最终任务表现具有正相关。
2) 外在评估
上述例子中,通过评估问题的答案的系统称为外部评估系统,一般较复杂且计算缓慢,并且无法确定哪个具体的子系统出错,这也是我们需要内在评估的原因。
3)内在评估举例:词向量类比
一个流行的内在评估是看填充词向量类比,例如
内在评估系统识别最大化cosine相似的词向量
使用这种方法要对语料集有一定了解,注意对应关系可能不是唯一。
这种方法除了语义测试外,也能进行比较级、时态等语法测试。
4)内在评估调参:类比评估
考虑调整的参数包括:
词向量的维度,语料库规模,语料来源/类型,语境窗口规模,语境对称性。
对比不同模型后得到主要结论有:
表现主要依赖于词嵌入的模型(同时出现计数、奇异向量等),表现随语料库增大而增强,变现对非常低或高的维度表现不佳(维度低无法充分体现,维度高无法泛化)。
5)内在评估举例:相关性评估
另一个评估词向量质量的方法是让人类在0-10固定尺度内评估两个词的相似性,然后将它与cosine相似性对比。
6)延伸阅读:处理歧义
例如run既可以做名词也可以做动词
a 收集出现该词的固定大小语境窗口,例如前5个后5个
b 每个语境由语境词向量加权平均体现,如idf加权
c 使用球形k平均聚合这些语境表征
d 每个词出现重新标记到相应的聚合并用于训练那个聚合的词表征
Improving word representations via global context and multiple word prototypes (Huang et al, 2012)