1. Q-Learning Vs Policy Based
Q-Learning比policy gradient好train,因为:
只要学到Q function,就能得到一个比较好的policy。
Q-Learning的缺点是:难以处理action是continuous的情况。
1.1. 什么时候action是连续的?
答:例如开车,action可以是方向盘转多少度。
1.2. continuous action对Q-Learning有什么问题?
答:Q-Learning的一个步骤是求解:
但a无法穷举
1.3. 解决方法
- sample一组action
缺点:这样得到的Action不会太精确 - 用gradient ascend来解a的最优化问题
缺点:这样运算量大,且会遇到local minima的问题。 - 对这个NN做特别的设计,使得容易计算最优化问题