Animated RNN, LSTM and GRU


RNN是

Fig. 0: Legend for animations

Vanilla RNN

Fig. 1: Animated vanilla RNN cell

  • $t$——time step
  • $X$——input
  • $h$——hidden state
  • length of $X$ —size/dimension of input
  • length of $h$ — no. of hidden units. Note that different libraries call them differently, but they mean the same:
    • Keras — state_size ,units
    • PyTorch — hidden_size
    • TensorFlow — num_units

LSTM

Overview

下面两张图是LSTM中一个cell的内部结构。

Animated LSTM cell

The repeating module in an LSTM contains four interacting layers.

上图中各个符号的含义:

符号含义

  • Neural Network Layer表示里面具有需要学习的参数。
  • Pointwise Operation表示单纯的向量操作,比如vector addition。需要仔细观察的是,在上图中,有一个tanh函数属于Neural Network Layer,而另一个tanh函数属于Pointwise Operation,区别可以在Input Gate Layer和Output Gate Layer部分的数学公式知晓。

LSTM一共有3个gate来控制cell state。

Step 1: Forget Gate Layer

Forget Gate Layer

Step 2: Input Gate Layer

undefined

接下来对Cell State进行更新:

undefined

Step 3: Output Gate Layer

undefined

GRU(Gated Recurrent Unit )

Fig. 3: Animated GRU cell

undefined


文章作者: CarlYoung
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 CarlYoung !
 上一篇
l1和l2正则化的区别 l1和l2正则化的区别
L1正则化和L2正则化是控制模型复杂度和限制过拟合的常用方法。L1正则化和L2正则化之间有一些有趣的比较。我发现这些视觉上的对比和它们的解释很容易理解。 1. 为什么需要正则化?首先,让我们以线性回归为例。假设Y和一大堆其他Factor之间
2021-03-22
下一篇 
Q&A——Transformer,BERT Q&A——Transformer,BERT
Transformer 代码实战:The Annotated Transformer 超级好的动画演示:The Illustrated Transformer 碎碎念:Transformer的细枝末节 画Transformer的结构图
  目录