过拟合问题
过拟合
神经网络模型在训练数据集上的准确率较高,在新的数据进行预测或分类时准确率较低。模型的泛化能力差。
发生过拟合的原因,主要有两个:
1)模型拥有大量参数、表现能力强;
2)训练数据太少;
正则化
权值衰减是通过在学习过程中对大的权值进行惩罚,来抑制过拟合。这时,为损失函数加上权重的平方数(L2范数),这样一来,就可以抑制权重变大。
对上面的话,作一下解释:
权重参数的更新过程为:
。如果为损失函数加上一个权重的L2范数,那么,梯度▽就会变大,
自然会相应的减小。
有了正则化后,损失函数,在原来的基础上,增加了一项.
其中n为训练样本总数,分母上的2是为了方便求导。是正则化超参数,
越小,正则化的作用就越小,模型主要在优化原来的损失函数。
越大则正则化越重要,参数趋于0附近。
L1范数与之类似。
Dropout
Dropout是一种在学习的过程中随机删除神经元的方法。训练时,随机选出隐藏层的神经元,然后将其删除。被删除的神经元不在进行信号的传递。在测试时,虽然会传递所有的信号,但是,对于各个神经元的输出,要乘上训练时的删除比例后再输出。