模仿学习 Imitation Learning
使用场景:
机器无法从环境中得到reward,只能看expert的demonstration
例如chatbot,难以决定聊得好不好,但可以收集很多人的真实对话。
Behavior Cloning
基于expert收集labelled data,把它当作监督学习来做.
存在的问题:
- Experts only samples limited observation

例如开车,expert不会把车开始左上角,所以永远sample不到处于左上角的data。
解决方法:data aggregation - agent会学习expert的一些与action不相关的个人习惯
- Training data和Testing data不match
Innverse Reinforcement Learning — IRL
RL:
根据Env和Reward选择Optimal Action
IRL:
先根据expert和Env反推reward,再根据reward和Env选择Optimal Action。
为什么要反推reward function?
答:Modeling reward可能很简单。简单的reward function可以导出复杂的policy。
framework of IRL:
-
expert $\hat \pi$与游戏互动得到的N个sample $\hat \tau$
-
Actor $\pi$与游戏互动得到的N个sample $\tau$
-
先验假设:$\hat \tau$是最棒的,$\hat \tau$的分数一定高于$\tau$
-
学习一个reward function使得:
$$ \sum R(\hat \tau_n) > \sum R(\tau_n) $$ -
用reward function + RL找actor $\pi’$

-
用$\pi’$代替$\pi$,进入下一个迭代
RAN Vs. IRL
