1. 复习policy Gradient:
∇R¯θ≈N1n=1∑Nt=1∑Tn(t′=t∑Tnγt′−trt′n−b)∇logpθ(atn∣stn)(1)
公式解释:
pθ(atn∣stn):在某个state采取某个Action的几率
∇Rˉθ:在state上采取action后,到游戏结束,得到的reward的期望
t:从现在开始的时间点
γt′−t:t时刻的action对t'时刻的影响力
rt′n:t'时刻得到的reward
b:baseline,用于保证()有正有负
如果()为正,就要pθ(atn∣stn)↑,否则pθ(atn∣stn)↓
定义:
Gtn=t′=t∑Tnγt′−trt′n
其中rt′n通过与环境互动得到,由于游戏的随机性,这使得Gtn非常不稳定。
怎样让Gtn变得稳定?
答:用NN估计Gtn而不是与环境真实互动。
2. 复习Q-Learning
定义 state value function Vπ(s):对于一个特定的π,输入当前state s,输出期望的cumulated reward。
定义 state-action value function Qπ(s,a):对于一个特定的π,输入当前state s,并强制采取动作a,输出期望的cumulated reward。