强化学习——函数逼近与神经网络

1.函数逼近

可数的状态可用Q表格表示,但在实际中的应用状态的数量级十分大,所以可采用值函数近似。

强化学习——函数逼近与神经网络

强化学习——函数逼近与神经网络

2.神经网络

输入训练数据,输出结果

强化学习——函数逼近与神经网络

神经网络可用逼近任意连续函数

强化学习——函数逼近与神经网络

神经网络代码举例:

强化学习——函数逼近与神经网络

3.DQN 使用神经网络求解RL问题中的经典算法

DQN的本质为Q-learing,从environment中获得state,通过查表,获得Q值及动作,然后输出给环境,拿到

下一个state和reward。

强化学习——函数逼近与神经网络

强化学习——函数逼近与神经网络

 

DQN的改进在于直接把Q表格换成神经网络

强化学习——函数逼近与神经网络

4.监督学习其训练过程为:输入x值,输出预测的y值和真实的y值,并求其均方差,然后送入优化函数,对网络更新优化

DQN其训练过程为:输入的是一批state,输出的是预测的Q值,然后逼近Target Q值,计算目标值和预测值的均方差,然后送入优化函数,对网络更新优化

强化学习——函数逼近与神经网络