强化深度学习task06连续动作空间和DDPG

分类: 文章 • 2024-12-29 09:43:22

一、连续动作和离散动作
连续动作：动作是连续的浮点数比如速度、推力、角度、电压等
离散动作：动作是离散值，比如上下左右等。
求解方法：
强化深度学习task06连续动作空间和DDPG
离散动作：softmax映射
连续动作：tanh连续映射
二、DDPG

是DQN的扩展版，可扩展至连续空间

actor-critic结构

演员输出动作，并根据评论家的评判修改动作策略，评论家根据分数（观众反应）得出动作评判标准
强化深度学习task06连续动作空间和DDPG