2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律 笔记
文章目录
AI
机器学习MACHINR LEARNING
深度学习DEEP LEARNING
神经网络基础-9步学习法
基础知识
线性回归
线性分类
非线性回归
非线性分类
模型推理与部署
深度神经网络
卷积神经网络
循环神经网络
回归与分类——基于神经网络的原理与实现
神经网络
回归——Regression
线性回归
左图只有一个神经元,X是输入,W是权重值,b是偏移值。经过 XW+b 计算出Z,Z是猜样本点X对应的Z值
不同的W b得到右图不同的直线,其中红色线拟合程度最好
反向传播公式中第一个公式,Loss对W求偏导,先对Z求导,然后Z对W求导,结果中为什么会有X的矩阵转置?
第三个公式叫做梯度更新,其中η是学习率,一般为0.1
经过成百上千次的循环,把W B的值调的非常精确,最终使得Loss的值达到最小
非线性回归
一层神经网络只能解决线性问题,对于非线性问题,需要多个神经网络。
右下角的曲线叫做眼镜蛇曲线
把输入层X的值分成三份,这是神经网络训练得到,这里是隐藏层,Z2是输出层。这里是两层的神经网络
隐藏层中a11 a12 a13称为**函数,是非线性效果的关键,其计算公式如下
相较于线性回归,关键是往回怎么传,Loss->Z,Z->A1,A1->Z1,得到Z1的梯度后,才能求出W1和b1的梯度变化,所以我们要求ΔZ1,,公式后面A1和(1-A1)这里是点乘,而不是矩阵乘法
先把x做了一个分解,w11,w12,b11,b12这四个参数都是学习出来的,分成两个值得到z1,z2
分成了一个红色的直线和一个绿色的直线
z1经过sigmoid**函数变成a1
z2经过sigmoid**函数变成a2,绿的点是z2
经过第二层神经网络的计算,变成蓝色曲线,也就是最后要得到的拟合曲线。
综上就是先做特征值分解,分成两个线,然后每个线都通过sigmoid**函数变成非线性的,最后通过z=a1w11+a2w21+b
Decision Tree
有了深度学习为什么还要有机器学习?深度学习虽然很强大,但是容易在小的数据集产生过拟合,传统的机器学习表现得要比深度学习效果好
大部分用梯度下降法进行优化,树模型是一个离散的函数
DT模型划分到最后可以完全的分类,跟真实的标签完全一致,但是会产生严重的过拟合
机器学习都是训练都是使用的数据集,而实际应用中都是我们观测不到的数据,所以需要有泛化能力
决策树被提出,随机森林,上图中就是对于浣熊的试别通过多棵树进行测试
1、为什么要使用多棵树?
假如模型叫做一个函数F,把特征域映射到标签域
当die越大的时候,上下限越高,泛化能力越好
2、第一种技巧,对数据随机筛选,第二种技术,每棵树使用不一样的特征。
GBDT是一种累加模型,第一棵树和第二棵树相加的结果预测一个y
假设一个数据真实的标签为55,第一棵树拟合出来是32,第二棵树是55-32=23,其实就是第二个模型拟合前一个模型的残差,后面模型再拟合前面结果相加的残差。后面一棵树需要前面的树才能计算,精度高,但是花费时间长
改进的方法
原模型无限分裂的话很容易会过拟合,所以在原来的基础上加了一个 \gammaT,T其实就是个惩罚因子
同时提出二阶导,用增益去分裂,不用依赖前一个数
数据清洗
通过一些统计特征:
分类-Classification
二分类
一个神经元,两个输入x1 x2
x1是横坐标,x2是纵坐标,所谓的y在这里是红色和绿色
这里X是矩阵,B是向量
A不叫**函数,神经网络只有在层和层之间才有**函数,神经网络最后一层的这个叫做分类函数,这里是分成两类的一个图象
多分类
因为输出有三类,所以要有z1 z2 z3三个神经元
线性多分类实质也就是计算概率问题