1. value based算法

这种方法不直接学习policy,而是学习critic。
critic不直接采取行为,而是评价现在的行为。

1.1. 定义 state value function Vπ(s)V^\pi(s)Vπ(s)

对于一个特定的π\pi,输入当前state ss,输出期望的cumulated reward。
有两种方法来衡量Vπ(s)V^\pi(s),分别是MC法和TD法。

1.1.1. Monte-Carlo (MC) based 蒙特卡罗法

使用π\pisas_a真实互动并统计reward GaG_a
收集labelled data (s_a, G_a)。
使用labelled data来训练NN,这是一个回归问题。
缺点:必须玩到游戏结束才能收到到reward。有些游戏要玩很久,太耗时。

1.1.2. Temporal-difference (TD) based

Vπ(st)=Vπ(st+1)+rt V^\pi(s_t) = V^\pi(s_{t+1}) + r_t

1.1.3. MC Vs. TD


TD比较稳,MC比较精确
TD更常用

1.2. 定义 state-action value function Qπ(s,a)Q^\pi(s, a)Qπ(s,a)

对于一个特定的π\pi,输入当前state ss并强制采取动作a,输出期望的cumulated reward。
Qπ(s,a)Q^\pi(s, a)是一个NN,可以有以下两种结构:

results matching ""

    No results matching ""