您的位置: 首页 > 文章 > DQN

DQN

分类: 文章 • 2022-10-15 10:17:03

文章目录

神经网络的作用
更新神经网络
Experience replay 和 Fixed Q-targets

神经网络的作用

将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样我们就没必要在表格中记录 Q 值。而是直接使用神经网络生成 Q 值.
也能只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作.

神经网络接受外部的信息, 相当于眼睛鼻子耳朵收集信息, 然后通过大脑加工输出每种动作的值,最后通过强化学习的方式选择动作.

更新神经网络

基于第二种神经网络
DQN

需要 a1, a2 正确的Q值, 这个 Q 值我们就用之前在 Q learning 中的 Q 现实来代替. 还需要一个 Q 估计来实现神经网络的更新.
所以神经网络的的参数就是老的 NN 参数加学习率 alpha 乘以 Q 现实和 Q 估计的差距.

通过 NN 预测出Q(s2, a1) 和 Q(s2,a2) 的值, 这就是 Q 估计. 然后我们选取 Q 估计中最大值的动作来换取环境中的奖励 reward. 而 Q 现实中也包含从神经网络分析出来的两个 Q 估计值, 不过这个 Q 估计是针对于下一步在 s’ 的估计. 最后再通过刚刚所说的算法更新神经网络中的参数.

Experience replay 和 Fixed Q-targets

Experience Replay

深度神经网络，要求数据满足独立同分布。但 Q Learning 算法得到的样本前后是有关系的。为了打破数据之间的关联性，Experience Replay 方法通过存储-采样的方法将这个关联性打破了。

Fixed Q-targets

也是一种打乱相关性的机理, 使用 fixed Q-targets, 就会在 DQN 中使用到两个结构相同但参数不同的神经网络, 预测 Q估计的神经网络具备最新的参数, 而预测 Q 现实的神经网络使用的参数则是很久以前的.