为什么现在的大语言模型（LLM）都是Decoder-only的架构？

1年前

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

LLM 是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10 亿或以内量级）的“百花齐放”不同，目前 LLM 的一个现状是 Decoder-only 架构的研究居多，像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了，即便是 Google 这样的并非全部押注在 Decoder-only 的公司，也确实投入了不少的精力去研究 Decoder-only 的模型，如 PaLM 就是其中之一。那么，为什么 Decoder-only 架构会成为 LLM 的主流选择呢？

知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构？》[1]，上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是 10 亿级别的，所以从 LLM 的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。

我们知道，一般的 NLP 任务都是根据给定的输入来预测输出，完全无条件的随机生成是很少的，换句话说，任何 NLP 任务都可以分解为“输入”跟“输出”两部分，我们可以把处理“输入”的模型叫做 Encoder，生成“输出”的模型叫做 Decoder，那么所有任务都可以从“Encoder-Decoder”的视角来理解，而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数：

这里的 GPT 就是 Decoder-only 的代表作；UniLM 则是跟 GPT 相似的 Decoder 架构，但它是混合的注意力模式；T5 则是 Encoder-Decoder 架构的代表作，主要是 Google 比较感兴趣。

Google 在 T5 [2] 和 UL2 [3] 两篇论文中做了较为充分的对比实验，结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优势，但由于从 LLM 的角度看这两篇论文的模型尺度都还不算大，以及多数的 LLM 确实都是在做 Decoder-only 的，所以这个优势能否延续到更大尺度的 LLM 以及这个优势本身的缘由，依然都还没有答案。

对比实验

从上表可以看出，其实 GPT 跟 UniLM 相比才算是严格控制变量的，如果 GPT 直接跟 T5 相比，那实际上产生了两个变量：输入部分的注意力改为双向以及参数翻了一倍。而之所以会将它们三个一起对比，是因为它们的推理成本大致是相同的。

相比 GPT，既然 T5 有两个变量，那么我们就无法确定刚才说的 Encoder-Decoder 架构的优势，究竟是输入部分改为双向注意力导致的，还是参数翻倍导致的。为此，笔者在 10 亿参数规模的模型上做了 GPT 和 UniLM 的对比实验，结果显示对于同样输入输出进行从零训练（Loss 都是只对输出部分算，唯一的区别就是输入部分的注意力模式不同），UniLM 相比 GPT 并无任何优势，甚至某些任务更差。

假设这个结论具有代表性，那么我们就可以初步得到结论：

输入部分的注意力改为双向不会带来收益，Encoder-Decoder 架构的优势很可能只是源于参数翻倍。

换句话说，在同等参数量、同等推理成本下，Decoder-only 架构很可能是最优选择。当然，要充分验证这个猜测，还需要补做一些实验，比如 Encoder 和 Decoder 依然不共享参数，但 Encoder 也改为单向注意力，或者改为下一节介绍的正反向混合注意力，然后再对比常规的 Encoder-Decoder 架构。但笔者的算力有限，这些实验就留给有兴趣的读者了。

低秩问题

为什么“输入部分的注意力改为双向不会带来收益”呢？明明输入部分不需要考虑自回归生成，直觉上应该完整的注意力矩阵更好呀？笔者猜测，这很可能是因为双向注意力的低秩问题带来的效果下降。

众所周知，Attention 矩阵一般是由一个低秩分解的矩阵加 softmax 而来，具体来说是一个的矩阵与的矩阵相乘后再加 softmax（），这种形式的 Attention 的矩阵因为低秩问题而带来表达能力的下降，具体分析可以参考《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》[4]。

而 Decoder-only 架构的 Attention 矩阵是一个下三角阵，注意三角阵的行列式等于它对角线元素之积，由于 softmax 的存在，对角线必然都是正数，所以它的行列式必然是正数，即 Decoder-only 架构的 Attention 矩阵一定是满秩的！满秩意味着理论上有更强的表达能力，也就是说，Decoder-only 架构的 Attention 矩阵在理论上具有更强的表达能力，改为双向注意力反而会变得不足。

还有个间接支持这一观点的现象，那就是线性 Attention 在语言模型任务上（单向注意力）与标准 Attention 的差距，小于它在 MLM 任务上（双向注意力）与标准 Attention 的差距，也就是说，线性 Attention 在双向注意力任务上的效果相对更差。

这是因为线性 Attention 在做语言模型任务时，它的 Attention 矩阵跟标准 Attention 一样都是满秩的下三角阵；在做 MLM 任务时，线性 Attention 矩阵的秩比标准 Attention 矩阵更低（线性 Attention 是的矩阵与的矩阵相乘，秩一定不超过 d，标准 Attention 是的矩阵与的矩阵相乘后加 softmax，softmax 会有一定的升秩作用）。

反过来，这个结论能不能用来改进像 BERT 这样的双向注意力模型呢？思路并不难想，比如在 Multi-Head Attention 中，一半 Head 的 Attention 矩阵截断为下三角阵（正向注意力），另一半 Head 的 Attention 矩阵截断为上三角阵（反向注意力）；又或者说奇数层的 Attention 矩阵截断为下三角阵（正向注意力），偶数层的 Attention 矩阵截断为上三角阵（反向注意力）。

这两种设计都可以既保持模型整体交互的双向性（而不是像 GPT 一样，前一个 token 无法跟后一个 token 交互），又融合单向注意力的满秩优点。笔者也简单做了对比实验，发现正反向混合的注意力在 MLM 任务上是比像 BERT 这样的全双向注意力模型效果稍微要好点的：

▲ 全双向注意力与正反向混合注意力的训练曲线比较

坏消息是这实验的只是一个 base 版本（1 亿参数）的模型，更大模型的效果尚未清楚。

文章小结

所以，笔者作出的回答是：LLM 之所以主要都用 Decoder-only 架构，除了训练效率和工程实现上的优势外，在理论上是因为 Encoder 的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而 Encoder-Decoder 架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only 架构就是最优选择了。