1. value based算法
这种方法不直接学习policy,而是学习critic。
critic不直接采取行为,而是评价现在的行为。
1.1. 定义 state value function Vπ(s)V^\pi(s)Vπ(s)
对于一个特定的,输入当前state ,输出期望的cumulated reward。
有两种方法来衡量,分别是MC法和TD法。
1.1.1. Monte-Carlo (MC) based 蒙特卡罗法
使用与真实互动并统计reward 。
收集labelled data (s_a, G_a)。
使用labelled data来训练NN,这是一个回归问题。
缺点:必须玩到游戏结束才能收到到reward。有些游戏要玩很久,太耗时。
1.1.2. Temporal-difference (TD) based
1.1.3. MC Vs. TD
TD比较稳,MC比较精确
TD更常用
1.2. 定义 state-action value function Qπ(s,a)Q^\pi(s, a)Qπ(s,a)
对于一个特定的,输入当前state ,并强制采取动作a,输出期望的cumulated reward。
是一个NN,可以有以下两种结构: