1. 复习policy Gradient:

R¯θ1Nn=1Nt=1Tn(t=tTnγttrtnb)logpθ(atnstn)(1) \begin{aligned} \nabla \bar R_\theta \approx \frac{1}{N}\sum_{n=1}^N\sum_{t=1}^{Tn}\left(\sum_{t'=t}^{Tn}\gamma^{t'-t}r_{t'}^n-b\right)\nabla\log p_\theta(a_t^n|s_t^n) && (1) \end{aligned}

公式解释:
pθ(atnstn)p_\theta(a_t^n|s_t^n):在某个state采取某个Action的几率
Rˉθ\nabla \bar R_\theta:在state上采取action后,到游戏结束,得到的reward的期望
t:从现在开始的时间点
γtt\gamma^{t'-t}:t时刻的action对t'时刻的影响力
rtnr_{t'}^n:t'时刻得到的reward
b:baseline,用于保证()有正有负
如果()为正,就要pθ(atnstn)p_\theta(a_t^n|s_t^n)\uparrow,否则pθ(atnstn)p_\theta(a_t^n|s_t^n)\downarrow

定义:
Gtn=t=tTnγttrtn G_t^n = \sum_{t'=t}^{T_n}\gamma^{t'-t}r_{t'}^n

其中rtnr_{t'}^n通过与环境互动得到,由于游戏的随机性,这使得GtnG_t^n非常不稳定。 怎样让GtnG_t^n变得稳定?
答:用NN估计GtnG_t^n而不是与环境真实互动。

2. 复习Q-Learning

定义 state value function Vπ(s)V^\pi(s):对于一个特定的π\pi,输入当前state ss,输出期望的cumulated reward。
定义 state-action value function Qπ(s,a)Q^\pi(s, a):对于一个特定的π\pi,输入当前state ss并强制采取动作a,输出期望的cumulated reward。

results matching ""

    No results matching ""