强化学习(Reinforcement Learning)的方法分类
强化学习(Reinforcement Learning)的方法分类
从Andrew Ng的cs229公开课开始接触强化学习已经有一段时间了,但对于强化学习中的各种方法一直很混乱,有必要简单归类整理一下,涉及的强化学习方法有:
- Value Iteration 值迭代
- Policy Iteration 策略迭代
- Monte Carlo Learing 蒙特卡洛学习
- Q-learning
- DQN(Deep Q-learning Network)
- Sarsa
- Policy Gradient
- Actor-Critic
- DDPG(Deep Deterministic Policy Gradient)
- A3C(Asynchronous Advantage Actor-Critic)
所有的这些强化学习方法都是以马尔可夫决策过程(MDPs)为基础的
这些方法的具体总结以后有时间再做。