动手学深度学习-pytorch版

Task 01

线性回归
线性回归的基本要素：模型、数据集、损失函数和优化函数
Softmax与分类模型
动手学深度学习-pytorch版
多层感知机

文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

1. 读入文本
2. 分词
3. 建立字典，将每个词映射到一个唯一的索引（index）
4. 将文本从词的序列转换为索引的序列，方便输入模型

读入文本
lines = [re.sub(’[^a-z]+’, ’ ', line.strip().lower()) for line in f]
%将文本中的大写替换成小写，并将由非英文字母构成的子串替换成空格

分词
动手学深度学习-pytorch版
分别以单词或者字符为单位进行分词

建立字典：为每个词映射一个唯一的索引
for idx, token in enumerate(self.idx_to_token)

用现有工具进行分词：spaCy:和NLTK:
动手学深度学习-pytorch版

## 语言模型

基于统计的语言模型，主要是 $n$ 元语法
N元语法的缺陷：参数空间过大（v+v^2+v3+…），数据稀疏（齐夫定律：大多数的单词的词频低）

时序数据的采样：随机采样和相邻采样
相邻采样：
动手学深度学习-pytorch版

动手学深度学习-pytorch版

## 过拟合欠拟合

训练误差和泛化误差（常用测试数据集上的误差来近似）
欠拟合：模型无法得到较小的训练误差
过拟合：
动手学深度学习-pytorch版