稀疏奖励 Sparse Reward
指大多数情况action没有reward的游戏。

1. Reward Shaping

developer自己设计一些reward来引导agnet
这些reward不是来自环境真正的reward。

1.1. 根据游戏设计

缺点：需要domain knowledge

ICM = intrinsic curiosity module

ICM根据(s1, a1, s2)计算出 $r1^i$
$R(\tau) = \sum(r_t + r_t^i)$

增加feature extraction

feature extraction通过Network2实现，用于把state中没有意义的东西去掉。
N2的训练方法为：根据 $\hat s_{t+1}$ 和 $s_{t+1}$ 预测 $\hat a_t$