1. Q-Learning Vs Policy Based

Q-Learning比policy gradient好train,因为:
只要学到Q function,就能得到一个比较好的policy。

Q-Learning的缺点是:难以处理action是continuous的情况。

1.1. 什么时候action是连续的?

答:例如开车,action可以是方向盘转多少度。

1.2. continuous action对Q-Learning有什么问题?

答:Q-Learning的一个步骤是求解:
a=argmaxaQ(s,a) a = \arg\max_a Q(s, a)

但a无法穷举

1.3. 解决方法

  1. sample一组action
    缺点:这样得到的Action不会太精确
  2. 用gradient ascend来解a的最优化问题
    缺点:这样运算量大,且会遇到local minima的问题。
  3. QπQ^\pi这个NN做特别的设计,使得容易计算最优化问题

    Q(s,a)=(aμ(s))(s)(aμ(s))+V(s)μ(s)=argmaxaQ(s,a) \begin{aligned} Q(s, a) = -(a-\mu(s))^\top\sum(s)(a-\mu(s)) + V(s) \\ \mu(s) = \arg\max_a Q(s,a) \end{aligned}

results matching ""

    No results matching ""