隐藏层中a11 a12 a13称为**函数，是非线性效果的关键，其计算公式如下
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
相较于线性回归，关键是往回怎么传，Loss->Z，Z->A1，A1->Z1，得到Z1的梯度后，才能求出W1和b1的梯度变化，所以我们要求ΔZ1，，公式后面A1和（1-A1）这里是点乘，而不是矩阵乘法
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
先把x做了一个分解，w11，w12，b11，b12这四个参数都是学习出来的，分成两个值得到z1，z2

分成了一个红色的直线和一个绿色的直线

z1经过sigmoid**函数变成a1
z2经过sigmoid**函数变成a2，绿的点是z2

经过第二层神经网络的计算，变成蓝色曲线，也就是最后要得到的拟合曲线。

综上就是先做特征值分解，分成两个线，然后每个线都通过sigmoid**函数变成非线性的，最后通过z=a1w11+a2w21+b

Decision Tree

有了深度学习为什么还要有机器学习？深度学习虽然很强大，但是容易在小的数据集产生过拟合，传统的机器学习表现得要比深度学习效果好
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
大部分用梯度下降法进行优化，树模型是一个离散的函数

DT模型划分到最后可以完全的分类，跟真实的标签完全一致，但是会产生严重的过拟合

机器学习都是训练都是使用的数据集，而实际应用中都是我们观测不到的数据，所以需要有泛化能力
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
决策树被提出，随机森林，上图中就是对于浣熊的试别通过多棵树进行测试

1、为什么要使用多棵树？
假如模型叫做一个函数F，把特征域映射到标签域
当die越大的时候，上下限越高，泛化能力越好
2、第一种技巧，对数据随机筛选，第二种技术，每棵树使用不一样的特征。
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
GBDT是一种累加模型，第一棵树和第二棵树相加的结果预测一个y
假设一个数据真实的标签为55，第一棵树拟合出来是32，第二棵树是55-32=23，其实就是第二个模型拟合前一个模型的残差，后面模型再拟合前面结果相加的残差。后面一棵树需要前面的树才能计算，精度高，但是花费时间长

改进的方法
原模型无限分裂的话很容易会过拟合，所以在原来的基础上加了一个 \gammaT，T其实就是个惩罚因子
同时提出二阶导，用增益去分裂，不用依赖前一个数

数据清洗

2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记
通过一些统计特征：

分类-Classification

2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记

二分类

一个神经元，两个输入x1 x2
x1是横坐标，x2是纵坐标，所谓的y在这里是红色和绿色
2020 AI领学计划 | 人工智能如何从海量数据中挖掘规律笔记

这里X是矩阵，B是向量
A不叫**函数，神经网络只有在层和层之间才有**函数，神经网络最后一层的这个叫做分类函数，这里是分成两类的一个图象