七月算法强化学习第四课学习笔记

Deep Q-Network

1.复习Q值函数

七月算法强化学习第四课学习笔记

SARSA

七月算法强化学习第四课学习笔记

2.Q-Learning

七月算法强化学习第四课学习笔记

如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）

拟合值函数Q（s，a）

几种值函数逼近（Value Function Approximation）

七月算法强化学习第四课学习笔记

值函数

Linear Combination of Features
Neural Network
Decision Tree
Nearest Neighbor

以及任何其他的函数都可能用来拟合值函数

Q-Network

七月算法强化学习第四课学习笔记

Gradient Descent

七月算法强化学习第四课学习笔记

3.Deep Q-Learning

七月算法强化学习第四课学习笔记

Experience Replay

七月算法强化学习第四课学习笔记

Experience Replay优点：训练数据利用率高，随机才养出来的Experience直接相关性小，可降低训练的Variance

DQN玩Atari

七月算法强化学习第四课学习笔记

Double DQN

七月算法强化学习第四课学习笔记

Duelling network模型

七月算法强化学习第四课学习笔记

七月算法强化学习 第四课 学习笔记