计算机视觉-深度学习与传统神经网络的区别
与传统神经网络的区别
区别 | 神经网络 | 深度学习 |
---|---|---|
网络架构 | 3层以内 | 可达上千层 |
层间连接 | 通常全连接 | 形式多样:共享权值、跨层的反馈 |
目标函数 | MSE(mean square error) | CE(cross entropy) |
**函数 | Sigmoid | ReLU |
梯度下降方法 | GD | Adam |
避免过适应 | 凭经验 | Dropout |
目标函数
Softmax层
Softmax层的作用是突出 “最大值”并转换成概率的形式
**函数
梯度消失的直观解释
ReLU
梯度算法
SGD 随机梯度下降
- 学习率不易确定,太小过慢,太大震荡
- 每个参数的学习率固定,希望对出现频率低的特征进行大一点的更新
- 学习过程容易陷入马鞍面,此区域所有方向的梯度值几乎为0
后面陆续有 Momentum、Nesterov Momentum、Adagrad、RMSprop、Adam(adaptive moment estimation,自适应矩估计)
梯度算法比较
避免过适应
产生原因
权重参数太多,而样本量不足
避免
- 早期停止训练
- 权重衰减
- Dropout