动手学深度学习-pytorch版

Task 01

线性回归
线性回归的基本要素:模型、数据集、损失函数和优化函数
Softmax与分类模型
动手学深度学习-pytorch版
多层感知机
动手学深度学习-pytorch版

Task 02

文本预处理

文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:

1. 读入文本
2. 分词
3. 建立字典,将每个词映射到一个唯一的索引(index)
4. 将文本从词的序列转换为索引的序列,方便输入模型

读入文本
lines = [re.sub(’[^a-z]+’, ’ ', line.strip().lower()) for line in f]
%将文本中的大写替换成小写,并将由非英文字母构成的子串替换成空格

分词
动手学深度学习-pytorch版
分别以单词或者字符为单位进行分词

建立字典:为每个词映射一个唯一的索引
for idx, token in enumerate(self.idx_to_token)

用现有工具进行分词:spaCy:和NLTK:
动手学深度学习-pytorch版
动手学深度学习-pytorch版

## 语言模型

基于统计的语言模型,主要是nn元语法
N元语法的缺陷: 参数空间过大(v+v2+v3+…),数据稀疏(齐夫定律:大多数的单词的词频低)

时序数据的采样:随机采样和相邻采样
相邻采样:
动手学深度学习-pytorch版

循环神经网络基础

动手学深度学习-pytorch版

## 过拟合欠拟合

训练误差和泛化误差(常用测试数据集上的误差来近似)
欠拟合:模型无法得到较小的训练误差
过拟合:
动手学深度学习-pytorch版