稀疏奖励 Sparse Reward
指大多数情况action没有reward的游戏。

1. Reward Shaping

developer自己设计一些reward来引导agnet
这些reward不是来自环境真正的reward。

1.1. 根据游戏设计

缺点:需要domain knowledge

1.2. Curiosity Reward

ICM = intrinsic curiosity module

ICM根据(s1, a1, s2)计算出r1ir1^i
R(τ)=(rt+rti) R(\tau) = \sum(r_t + r_t^i)

1.2.1. ICM的设计

  1. Network1根据at和st预测s^t+1\hat s_{t+1}
  2. 比较s^t+1\hat s_{t+1}st+1s_{t+1}
  3. diff越大,rtir_t^i越高
    即:
    action越无法预测,action的reward越大。(鼓励冒险)
    存在的问题:
    some states is hard to predict, but not important。
    例如:风吹草动。
    机器不能什么都不做只是站着看风吹草动。

1.2.2. ICM改进版

增加feature extraction


feature extraction通过Network2实现,用于把state中没有意义的东西去掉。
N2的训练方法为:根据s^t+1\hat s_{t+1}st+1s_{t+1}预测a^t\hat a_t

2. Curriculum Learning

给机器的学习做规划,labelled data由简单到难

3. Hierarchial Reinforcement Learning

results matching ""

    No results matching ""