七月算法强化学习 第四课 学习笔记

Deep Q-Network

1.复习Q值函数

七月算法强化学习 第四课 学习笔记

SARSA

七月算法强化学习 第四课 学习笔记

2.Q-Learning 

七月算法强化学习 第四课 学习笔记

七月算法强化学习 第四课 学习笔记

如果(s,a)状态太多太复杂怎么办?(围棋、Atari游戏,星际争霸)

拟合值函数Q(s,a)

几种值函数逼近(Value Function Approximation)

七月算法强化学习 第四课 学习笔记

值函数

Linear Combination of Features 
Neural Network 
Decision Tree 
Nearest Neighbor 

以及任何其他的函数都可能用来拟合值函数

Q-Network

七月算法强化学习 第四课 学习笔记

Gradient Descent

七月算法强化学习 第四课 学习笔记

3.Deep Q-Learning 

七月算法强化学习 第四课 学习笔记

Experience Replay

七月算法强化学习 第四课 学习笔记

Experience Replay优点:训练数据利用率高,随机才养出来的Experience直接相关性小,可降低训练的Variance

DQN玩Atari

七月算法强化学习 第四课 学习笔记

Double DQN

七月算法强化学习 第四课 学习笔记

Duelling network模型

七月算法强化学习 第四课 学习笔记