如何防止过拟合？二分类转换到多分类的方法？梯度消失/爆炸

数据增强:让模型看见尽可能多的例外情况。方法：从源头获取更多数据，对图像进行平移，翻转，缩放，亮度变化等
使用简单的模型：减少网络的层数，神经元个数,等。
提前结束训练。当时间较短时，网络权直较小，**函数工作在线性区，当训练时间越长，部分权直越大。
正则化限制权直：L1，L2
增加噪声：在输入中加噪声，噪声会按照权直的平方放大。在权值上加噪声：0均值高斯分布初始化权直。对网络的响应加噪声：输出随机：导致训练更慢，但是效果好。
结合多种模型，求平均值：bagging:用不同的模型拟合不同的训练集，以随机森林为例，训练了一堆不关连的决策树，较慢，因为神经网络复杂。 boosting：训练简单的神经网络，加权平均输出； dropout
贝叶斯方法
bn 不但能加快训练速度，还能防止过拟合
PCA（Principal componet analysis）分析feature importance，减少features的数量
隐藏层输出用于预测
以上原因见https://zhuanlan.zhihu.com/p/30951658
参考https://www.zhihu.com/question/59201590
8.