1. background
1.1. 深度学习一次迭代的三个步骤
- 环境 -> 机器:state
- 机器 -> 环境:action
- 环境 -> 机器:reward
定义:
一轮迭代 = state -> action -> reward。 如果没有反馈,reward = 0。
一episode = 一局游戏,有赢/输结果的。
目标:maximize the expected cumulative reward per spisode。
1.2. 监督学习 VS 强化学习
监督学习:从数据(State, Action)学习,学习的好坏取决于数据(State, Action)的好坏,因此需要大量数据。
强化学习:根据自己的(State, Action)经验学习,因此需要大量的经验。
1.3. 强化学习的难点
- reward delay
- 有些Action没有reward,甚至可能有牺牲。但它对帮助得到reward有重要贡献。
- 需要Machine探索未尝试过的行为。
1.4. 算法分类
- policy based算法 --- 学actor
- value based算法 --- 学critic
- policy + value 算法 --- A3C算法
Alpha GO = polocy based + value based + model based
model based算法主要用于棋类游戏
2. 应用
2.1. 应用于下棋
生成两个agent,互相对弈,以胜负作为reward。
2.2. 应用于Chat-Bot
生成两个agent,互相对话。
另外训练一个NN用于判断talk的好坏,并给予reward。
2.3. 应用于电子游戏
Gym:https://gym.openai.com/
Universe:https://openai.com/blog/universe/