RNN LSTM GRU

为什么要把三个列在一起，因为它们之间从左到右进阶的关系，最开始大家用RNN，发现问题，提出方案就有了LSTM，同样方式就有了GRU。

RNN在时间跨度够长，就会有一个梯度消失，或者梯度爆炸的问题，因此人们在加入了一个遗忘门的概念，目的是就是定期去删除以往的记录。在LSTM中由于输入门，输出门和遗忘门，太过复杂，复杂意味着计算量大，训练难度的增加，因此有人提出了新的模型GRU，把输入门和遗忘门合并成一个门 – 更新门。

至于RNN LSTM GRU内部是怎么工作的，这里不讨论。这里只是简单解释为什么会存在这几个非常相似的模型。