强化学习之Eligibility Traces
Eligibility Traces
Eligibility traces是Reinforcement Learning中的一个基本机制。TD(
可以从两种视角看待Eligibility trace,一种是forward(theoretical)的视角,另一种是backward(mechanical)的视角。顾名思义,forward即为向前看,backward即为向后看。forward的方式因其计算量较大,故在真正实践时都是用的backward的方式实现。
n-Step TD prediction
图上是TD(1-step)…TD(n-step)、蒙特卡罗的backup图。target分别是:
当episode在n步之前终止,则