模仿学习 Imitation Learning

使用场景：
机器无法从环境中得到reward，只能看expert的demonstration
例如chatbot，难以决定聊得好不好，但可以收集很多人的真实对话。

1. Behavior Cloning

基于expert收集labelled data，把它当作监督学习来做.
存在的问题：

Experts only samples limited observation

例如开车，expert不会把车开始左上角，所以永远sample不到处于左上角的data。
解决方法：data aggregation
agent会学习expert的一些与action不相关的个人习惯
Training data和Testing data不match

2. Innverse Reinforcement Learning --- IRL

RL:

根据Env和Reward选择Optimal Action
IRL:

先根据expert和Env反推reward，再根据reward和Env选择Optimal Action。
为什么要反推reward function?
答：Modeling reward可能很简单。简单的reward function可以导出复杂的policy。

2.1. framework of IRL:

expert $\hat \pi$ 与游戏互动得到的N个sample $\hat \tau$
Actor $\pi$ 与游戏互动得到的N个sample $\tau$
先验假设： $\hat \tau$ 是最棒的， $\hat \tau$ 的分数一定高于 $\tau$
学习一个reward function使得：
$\sum R(\hat \tau_n) > \sum R(\tau_n)$
用reward function + RL找actor $\pi'$
用 $\pi'$ 代替 $\pi$ ，进入下一个迭代

模仿学习

1. Behavior Cloning

2. Innverse Reinforcement Learning --- IRL

2.1. framework of IRL:

2.2. RAN Vs. IRL

results matching ""

No results matching ""