PyTorch RNN：序列建模与 LSTM 入门

这一篇主要整理自 liuer_pytorch/14-15.ipynb。在前面几篇里，输入大多可以看成"彼此独立的特征向量"；到了序列建模，这个假设就不成立了。

1. 为什么会需要 RNN#

课程里给出的切入点很朴素：
如果要根据前几天的天气预测今天的天气，把所有天直接拼成一个长向量喂进全连接层当然可以，但参数会很大，也不自然。

序列任务更在意的是：

这就是 RNN 这类模型出现的原因。

我自己记 RNN，不是先记公式，而是先记这件事：

RNN 不是把整段序列一次性塞进一个全连接层，而是让同一个 Cell 沿时间步重复处理信息。

所以图里那些同色的 RNN Cell，本质上共享的是同一组参数。
时间在往前走，隐藏状态在传递。

课程在字符级示例里先用了 one-hot 编码，比如学 "hello" -> "ohlol" 这种简单序列。
然后很快指出 one-hot 的三个问题：

这正好引出 embedding。

embedding 的意义不是"把离散 token 变成稠密向量"这么简单，
更关键的是：它允许模型去学习"词和词之间的相对关系"。

当序列变长，普通 RNN 很容易碰到长期依赖问题。
课程在这一节里把 LSTM 作为升级版介绍，我觉得最重要的不是立刻背门结构，而是先知道：

在 15.ipynb 里，这个任务很适合做入门示例：

所以课程里特别提醒了一点：

因为任务是一句话/一段话之分一个类别，而不是每个词都分一个类别，所以不用保留每个时间步的 outputs，而是使用最终状态 hidden。

这句话非常重要。它让我们知道：

我现在回头看，这一阶段最应该建立的是：

如果这些没通，后面看 GRU、Attention、Transformer 也会很容易失去主线。

如果只留最核心的几句：

有了这些直觉，再去看更现代的序列模型，就会顺很多。