模仿学习 Imitation Learning
使用场景:
机器无法从环境中得到reward,只能看expert的demonstration
例如chatbot,难以决定聊得好不好,但可以收集很多人的真实对话。
1. Behavior Cloning
基于expert收集labelled data,把它当作监督学习来做.
存在的问题:
- Experts only samples limited observation
例如开车,expert不会把车开始左上角,所以永远sample不到处于左上角的data。
解决方法:data aggregation - agent会学习expert的一些与action不相关的个人习惯
- Training data和Testing data不match
2. Innverse Reinforcement Learning --- IRL
RL:
根据Env和Reward选择Optimal Action
IRL:
先根据expert和Env反推reward,再根据reward和Env选择Optimal Action。
为什么要反推reward function?
答:Modeling reward可能很简单。简单的reward function可以导出复杂的policy。
2.1. framework of IRL:
- expert 与游戏互动得到的N个sample
- Actor 与游戏互动得到的N个sample
- 先验假设:是最棒的,的分数一定高于
学习一个reward function使得:
用reward function + RL找actor
- 用代替,进入下一个迭代
2.2. RAN Vs. IRL