1. background

1.1. 深度学习一次迭代的三个步骤

定义：一轮迭代 = state -> action -> reward。如果没有反馈，reward = 0。
一episode = 一局游戏，有赢/输结果的。
目标：maximize the expected cumulative reward per spisode。

监督学习：从数据(State, Action)学习，学习的好坏取决于数据(State, Action)的好坏，因此需要大量数据。
强化学习：根据自己的(State, Action)经验学习，因此需要大量的经验。

Alpha GO = polocy based + value based + model based
model based算法主要用于棋类游戏

生成两个agent，互相对弈，以胜负作为reward。

生成两个agent，互相对话。
另外训练一个NN用于判断talk的好坏，并给予reward。