强化学习——On-policy

目录

三个基本概念——哪些是可变的

Actor的决策——神经网络分类器

一次game——trajectory发生的概率

trajectory的reward和reward的期望

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

实现的时候类似于一个分类器

让reward细化到每个action 的两个简单技巧


三个基本概念——哪些是可变的

强化学习——On-policy

Actor的决策——神经网络分类器

强化学习——On-policy

一次game——trajectory发生的概率

强化学习——On-policy

trajectory的reward和reward的期望

强化学习——On-policy

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

强化学习——On-policy

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

强化学习——On-policy

实现的时候类似于一个分类器

强化学习——On-policy

让reward细化到每个action 的两个简单技巧

强化学习——On-policy

强化学习——On-policy

强化学习——On-policy强化学习——On-policy