您的位置: 首页 > 文章 > 第一周【任务1】：学习CS224n第一课和课程导学

第一周【任务1】：学习CS224n第一课和课程导学

分类: 文章 • 2025-04-13 23:44:16

====== 课程导学 ======

本节所学内容：

第一周【任务1】：学习CS224n第一课和课程导学

第一周【任务1】：学习CS224n第一课和课程导学

作业：

第一周【任务1】：学习CS224n第一课和课程导学

可选作业：

第一周【任务1】：学习CS224n第一课和课程导学

==========================================================

一、深度自然语言处理介绍：

1、自然语言处理为什么这么难？

一词多义
上下文相关
不守语法
随时间变化
表达的意义信息量很大
隐含常识

2、案例：

第一周【任务1】：学习CS224n第一课和课程导学

传统方法就可以做，为什么用深度学习方法？

第一周【任务1】：学习CS224n第一课和课程导学

传统的方法数据量达到一定之后，性能不再增长；而深度学习方法，随着神经网络结构的增加和数据量增大，效果变好。

二、Word2Vec介绍

1.WordNet

第一周【任务1】：学习CS224n第一课和课程导学

2.One-hot

第一周【任务1】：学习CS224n第一课和课程导学

假如字典有十万词，每个列表里就有10万个。表示简单，但很大且无法计算相似度

3.Distributed representation

第一周【任务1】：学习CS224n第一课和课程导学

三、相关概念

objective function 目标函数 = loss function 损失函数
one-hot representation 稀疏表达
distributed representation 分布式表示 / 稠密表达
(word) embedding （词）嵌入
bag of words BOW词袋
word vector 词向量
word context 词的上下文
word analogy 词的类比

四、背景知识

梯度下降算法

第一周【任务1】：学习CS224n第一课和课程导学

语言模型

第一周【任务1】：学习CS224n第一课和课程导学

五、word2vec：

无监督学习（输入不需要人工标注）
不需要标注怎么学习呢？——压缩自编码。自编码：自己学习自己；压缩：隐层压缩
学到的是什么？——wod2vec是结合上下文的，学习的不是词本身的意思，学习的是上文和下文之间的关系，学习的是词与词之间顺序的关系

第一周【任务1】：学习CS224n第一课和课程导学

1、CBOW

第一周【任务1】：学习CS224n第一课和课程导学

2、Skip-gram

第一周【任务1】：学习CS224n第一课和课程导学

3、如何衡量词向量的好坏？

衡量词向量之间的相似程度

余弦距离：两个向量之间的夹角。sim(word1, word2) = cos(wordvec1, wordvec2)

第一周【任务1】：学习CS224n第一课和课程导学

词类比：cos(word1 - word2 + word3, wordvec4)

补充内容

词向量有什么用？

1.词与词之间的关系

2.发现上下位词

3.应用到其他NLP任务上

4.双语单词嵌入

5.图像、文字嵌入

课后作业、思考

第一周【任务1】：学习CS224n第一课和课程导学

Lecture 01 Introduction and Word Vectors