强化学习——On-policy
目录
n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。
三个基本概念——哪些是可变的
Actor的决策——神经网络分类器
一次game——trajectory发生的概率
trajectory的reward和reward的期望
action的梯度
n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。
参数更新
n次游戏的收集结果只用一次,之后使用更新后的action
实现的时候类似于一个分类器
让reward细化到每个action 的两个简单技巧