《动手学》第一次打卡
一、线性回归
1、简述
线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。
2、模型
为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。线性回归假设输出与各个输入之间是线性关系:
3、损失函数
使用均方误差作为损失函数
二、logistics regression 与softmax
三、多层感知机
多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构,如下图:
四、文本预处理
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:
1、读入文本
2、分词:我们对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列。
3、建立字典,将每个词映射到一个唯一的索引(index):为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号
4、将文本从词的序列转换为索引的序列,方便输入模型:使用字典,我们可以将原文本中的句子从单词序列转换为索引序列