Asynchronous Advantage Actor-Critic
1. 公式推导
policy gradient中要求的Gtn就是Q-Learning中的Q,即
E[Gtn]=Qπθ(stn,atn)b=Vπθ(stn)
复习中的公式(1)中的“()”可以写成:
(t′=t∑Tnγt′−trt′n−b)=Qπθ(stn,atn)−Vπθ(stn)(1)
结合公式:
Qπθ(stn,atn)=rtn+Vπθ(st+1n)(2)
公式(2)代入公式(1)得:
(t′=t∑Tnγt′−trt′n−b)=rtn+Vπθ(st+1n)−Vπθ(stn)(3)
公式(3)代入∇Rˉθ得:
∇R¯θ≈N1n=1∑Nt=1∑Tn(rtn+Vπθ(st+1n)−Vπθ(stn))∇logpθ(atn∣stn)(4)
2. 训练过程
- 用π与环境互动,sample出labelled data
- 用TD或MC,基于labelled data学习Vπθ(s)
- 根据公式Vπθ(s)更新π
注意:
对Vπ(s)增加一个正则化,使Vπ(s)的entropy倾向于larger
3. Asynchronous
NN开多个影分身同时修行加快训练速度
for every worker:
- copy global 参数
- 独立地sample data并计算∇θ
- 把∇θ传到global
- global更新参数