七月算法强化学习 第四课 学习笔记
Deep Q-Network
1.复习Q值函数
SARSA
2.Q-Learning
如果(s,a)状态太多太复杂怎么办?(围棋、Atari游戏,星际争霸)
拟合值函数Q(s,a)
几种值函数逼近(Value Function Approximation)
值函数
Linear Combination of Features
Neural Network
Decision Tree
Nearest Neighbor
以及任何其他的函数都可能用来拟合值函数
Q-Network
Gradient Descent
3.Deep Q-Learning
Experience Replay
Experience Replay优点:训练数据利用率高,随机才养出来的Experience直接相关性小,可降低训练的Variance
DQN玩Atari
Double DQN
Duelling network模型