《深度学习工程师》听课笔记,编程作业和课后练习
向AI转型的程序员都关注了这个号????????????
大数据挖掘DT机器学习 公众号: datayx
课程地址、笔记、代码获取方式:
1、转发本文至朋友圈
2、关注微信公众号 datayx 然后回复 深度学习 即可获取。
目录
神经网络与深度学习 1. 神经网络的基础
Logistic 回归
Logistic 回归的损失函数
梯度下降法
逻辑回归的梯度下降法
m个样本的梯度下降法
向量化
Python 广播
2. 浅层神经网络
神经网络表示
神经网络输出
**函数
**函数的导数
神经网络的梯度下降法
随机初始化
3.深层神经网络
深层神经网络的前向传播和反向传播
核对矩阵的维数
使用深层表示的原因
参数和超参数
改进深度神经网络:超参数调整,正则化和优化
训练、验证、测试集
偏差、方差
正则化
为什么正则化有利于防止过拟合
dropout正则化
理解dropout
其他正则化方法
标准化(归一化)输入
梯度消失和梯度爆炸
神经网络的权重初始化
梯度的数值逼近
梯度检验
梯度验证应用的注意事项
Mini-batch梯度下降
指数加权平均
理解指数加权平均
指数加权平均的偏差修正
momentum梯度下降
RMSprop
Adam优化算法
学习率衰减
局部最优问题
3.超参数调试、Batch 正则化和程序框架
超参数调试处理
为超参数选择合适的范围
超参数调试实践:Pandas vs. Caviar
网络中的正则化**函数
在神经网络中融入Batch Norm
Batch Norm 起作用的原因
在测试数据上使用 Batch Norm
Softmax 回归
训练 Sotfmax 分类器
结构化机器学习项目
机器学习策略(1)
为什么是ML策略
正交化
单一数字评估指标
满足和优化指标
训练集、开发集、测试集的划分
开发集和测试集的大小
什么时候改变开发/测试集和评估指标
为什么是人的表现
可避免偏差
理解人类的表现
超越人类的表现
改善你的模型表现
机器学习策略(2)
误差分析
清除标注错误的数据
快速搭建第一个系统并开始迭代
在不同分布上的训练集和测试集
数据分布不匹配的偏差和方差分析
处理数据不匹配的问题
迁移学习
多任务学习
何为端到端的深度学习
是否使用端到端的深度学习方法
卷积神经网络 1. 卷积神经网络基础
计算机视觉
边缘检测示例
更多边缘检测的内容
padding
卷积步长
三维卷积
单层卷积网络
简单神经网络示例
池化层
卷积神经网络示例
为什么使用卷积?
2. 深度卷积网络:实例探究
为什么要进行实例探究
-
经典网络
LeNet-5
AlexNet
VGG
残差网络
为什么残差有用?
网络中的网络以及1×1卷积
谷歌Inception网络简介
Inception网络
使用开源的实现方案
迁移学习
数据扩充
计算机视觉现状
目标定位(Object localization)
特征点检测(Landmark detection)
目标检测(Object detection)
卷积的滑动窗口实现(Convolutional implementation of sliding windows)
Bounding Box预测(Bounding box predictions)
交并比(Intersection over union)
非极大值抑制(Non-max suppression)
Anchor Boxes
YOLO 算法(Putting it together: YOLO algorithm)
候选区域(选修)(Region proposals (Optional))
3.特殊应用:人脸识别和神经风格转换
什么是人脸识别?(What is face recognition?)
One-Shot学习(One-shot learning)
Siamese 网络(Siamese network)
Triplet 损失(Triplet Loss)
面部验证与二分类(Face verification and binary classification)
什么是神经风格转换?(What is neural style transfer?)
什么是深度卷积网络?(What are deep ConvNets learning?)
代价函数(Cost function)
内容代价函数(Content cost function)
风格代价函数(Style cost function)
一维到三维推广(1D and 3D generalizations of models)
序列模型 1. 循环神经网络(RNN)
为什么选择序列模型?
数学符号
-
循环神经网络模型
对时间序列参数共享的理解
通过时间的反向传播
不同类型的循环神经网络
语言模型和序列生成
对新序列采样
循环神经网络的梯度消失
GRU单元
长短期记忆(LSTM)
双向循环神经网络
深层循环神经网络
阅读过本文的人还看了以下:
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注
深度学习 500问
使用 ReLu **函数的优点
1、在区间变动很大的情况下,ReLu **函数的导数或者**函数的斜率都会远大于 0, 在程序实现就是一个 if-else 语句,而 sigmoid 函数需要进行浮点四则运算,在实践中,使用ReLu **函数神经网络通常会比使用 sigmoid 或者 tanh **函数学习的更快。
2、sigmoid 和 tanh 函数的导数在正负饱和区的梯度都会接近于 0,这会造成梯度弥散,而Relu 和 Leaky ReLu 函数大于 0 部分都为常数,不会产生梯度弥散现象。
3、需注意,Relu 进入负半区的时候,梯度为 0,神经元此时不会训练,产生所谓的稀疏 性,而 Leaky ReLu 不会产生这个问题。