[success]
通常将RNN的输入称为“上下文”。

上一节描述了没有输入xx时,关于随机变量序列y(t)y^{(t)}的RNN如何对应于有向图模型。 当然,如\eqn?所示的RNN包含一个输入序列x(1),x(2),,x(τ)x^{(1)},x^{(2)},\cdots,x^{(\tau)}。 一般情况下,RNN允许将图模型的观点扩展到不仅代表yy变量的联合分布也能表示给定xxyy条件分布。 如在\sec?的前馈网络情形中所讨论的,任何代表变量P(y;θ)P(y;\theta)的模型都能被解释为代表条件分布P(yω)P(y \mid \omega)的模型,其中ω=θ\omega=\theta。 我们能像之前一样使用P(yω)P(y \mid \omega)代表分布P(yx)P(y \mid x)来扩展这样的模型,但要令ω\omega是关于xx的函数。

[warning] P(yω)P(y \mid \omega)P(yx)P(y \mid x)是什么关系?

在RNN的情况,这可以通过不同的方式来实现。 此处,我们回顾最常见和最明显的选择。

之前,我们已经讨论了将t=1,,τt =1, \cdots, \tau的向量x(t)x^{(t)}序列作为输入的RNN。 另一种选择是只使用单个向量xx作为输入。 当xx是一个固定大小的向量时,我们可以简单地将其看作产生yy序列RNN的额外输入。 将额外输入提供到RNN的一些常见方法是:

  • 在每个时刻作为一个额外输入,或
  • 作为初始状态h(0)h^{(0)},或

    [warning] 这种方法和“使用序列作为输入”有什么区别?

  • 结合两种方式。

第一个也是最常用的方法如\fig?所示。 输入xx和每个隐藏单元向量h(t)h^{(t)}之间的相互作用是通过新引入的权重矩阵RR参数化的,这是只包含yy序列的模型所没有的。

[warning] R和U有什么区别?

results matching ""

    No results matching ""