GRU VS Highway Netword
Highway Network基于GRU对Unit做了一些改进:
-
GRU

-
Highway Network Unit

主要改进为:
- 去掉 Input $x^t$和Output $y^t$,只有第一个Unit有Input,最后一个Unit有Output
- 输入$h^t$换成$a^{t-1}$
- 去掉reset gate,保证$a^{t-1}$一定能进入下一个step
Highway Network Unit的计算过程:
$$
\begin{aligned}
h’ = \sigma(W a^{t-1}) \
z = \sigma(W’ a^{t-1}) \
a^t = z \odot a^{t-1} + (1-z)\odot h’
\end{aligned}
$$
这相当于在layer方向增加gate,以达到使layer更深的目的。
如果只接将z设置成0.5,就成了残差网络。
Highway Network可以看作是Network自动学到要有多少hidden layer。
根据data决定实际使用几层layer。