台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

以下内容和图片均来自台湾大学深度学习课程。
课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html

函数“f”的作用
台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

“Meaning”的含义？
台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

怎样表示文字上的语义？
本节课主要讲了两种方法，分别如下：

Knowledge-based representation

这个是传统方法，语言学家们制定了一套 WordNet ，包含了字与字之间的关联。

台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

调用方法：

台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

这种方法有很多局限性。

文字会不断地发展
主观性较强，不同的人之间有不同的理解
工作量比较大
字与字之间的相似性很难定义

台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

Corpus-based representation

Atomic symbols

one-hot方法 将所有需计算的文字组成一个向量，给出一个文字，它在向量中的位置标为1，其余都为0，如果 car 在第七个位，则表示方法如下。

但是这种表示方法还是有局限性，如果向量中出现与car具有相关性的 motorcycle，但是表示这两个单词的向量无论如何进行计算，值都是0，无法体现它们之间的相关性。

台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

为了解决这一问题，想到一种解决方法。car与motorcycle它们相邻的单词（neighbor）如果存在某些关系的话，那么可以认为这两个单词之间具有相关性。

那么如何确定neighbor的范围呢？
下面给出了两种方式，full document 与 windows 。full document可以在同一篇文章中出现过，文章中的文字之间可以根据文章确定一个相关的主题。而windows限定在某个窗口内，可以是几句话或者几个单词之内范围，这种方式可以获得词性等信息。

台湾大学深度学习课程学习笔记 lecture2-2 Word Representation