中文词向量：Word2vec 从熟悉到入门

Word2vec 也叫 Word Embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量（Dense Vector）。在 Word2vec 出现之前，自然语言处理经常把字词转为离散的单独的符号，这种编码方式称为 One-Hot Encoder。

在自然语言处理领域也就是在 Bert 跟 Xlnet 模型出现以前（2019 年是 NLP 领域突飞猛进的一年，Bert 模型采用根据上下文语义动态训练字向量的方式，泛化性更强），几乎所有的训练深度学习模型都采用训练词向量的方式，Word2vec 使用最多。虽然 Bert 模型力压传统深度模型，但是由于 Bert 模型的参数多(参数在1亿左右)、体量大等原因，并不能被广泛使用。

在本次 Chat 中，您将学习到：

Word2vec 模型架构解析
Jieba 分词原理详解
Skip-gram 原理详解
Demo1：使用 Skip-gram 训练词向量
CBOW 原理详解
Demo2：使用 CBOW 训练词向量
词向量的两种保存方式

适合人群：对 AI 领域有着浓厚的兴趣，致力于从事中文自然语言处理的学员。

阅读全文: http://gitbook.cn/gitchat/activity/5dae5ee312be8c7cc739cdc1

您还可以下载 **** 旗下精品原创内容社区 GitChat App ，阅读更多 GitChat 专享技术内容哦。

中文词向量：Word2vec 从熟悉到入门

中文词向量：Word2vec 从熟悉到入门

相关推荐