1. GRU VS Highway Netword

Highway Network基于GRU对Unit做了一些改进:

  • GRU

  • Highway Network Unit

主要改进为:

  1. 去掉 Input xtx^t和Output yty^t,只有第一个Unit有Input,最后一个Unit有Output
  2. 输入hth^t换成at1a^{t-1}
  3. 去掉reset gate,保证at1a^{t-1}一定能进入下一个step

Highway Network Unit的计算过程:
h=σ(Wat1)z=σ(Wat1)at=zat1+(1z)h \begin{aligned} h' = \sigma(W a^{t-1}) \\ z = \sigma(W' a^{t-1}) \\ a^t = z \odot a^{t-1} + (1-z)\odot h' \end{aligned}

这相当于在layer方向增加gate,以达到使layer更深的目的。
如果只接将z设置成0.5,就成了残差网络

Highway Network可以看作是Network自动学到要有多少hidden layer。

根据data决定实际使用几层layer。

results matching ""

    No results matching ""