稀疏奖励 Sparse Reward
指大多数情况action没有reward的游戏。
1. Reward Shaping
developer自己设计一些reward来引导agnet
这些reward不是来自环境真正的reward。
1.1. 根据游戏设计
缺点:需要domain knowledge
1.2. Curiosity Reward
ICM = intrinsic curiosity module
ICM根据(s1, a1, s2)计算出
1.2.1. ICM的设计
- Network1根据at和st预测
- 比较和
- diff越大,越高
即:
action越无法预测,action的reward越大。(鼓励冒险)
存在的问题:
some states is hard to predict, but not important。
例如:风吹草动。
机器不能什么都不做只是站着看风吹草动。
1.2.2. ICM改进版
增加feature extraction
feature extraction通过Network2实现,用于把state中没有意义的东西去掉。
N2的训练方法为:根据和预测
2. Curriculum Learning
给机器的学习做规划,labelled data由简单到难