Redian新闻
>
为什么现在的大语言模型(LLM)都是Decoder-only的架构?

为什么现在的大语言模型(LLM)都是Decoder-only的架构?

科技

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络



LLM 是“Large Language Model”的简写,目前一般指百亿参数以上的语言模型,主要面向文本生成任务。跟小尺度模型(10 亿或以内量级)的“百花齐放”不同,目前 LLM 的一个现状是 Decoder-only 架构的研究居多,像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了,即便是 Google 这样的并非全部押注在 Decoder-only 的公司,也确实投入了不少的精力去研究 Decoder-only 的模型,如 PaLM 就是其中之一。那么,为什么 Decoder-only 架构会成为 LLM 的主流选择呢? 


知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构?》[1],上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势,那么它有没有理论上的优势呢?本文试图从这个角度进行简单的分析。




统一视角


需要指出的是,笔者目前训练过的模型,最大也就是 10 亿级别的,所以从 LLM 的一般概念来看是没资格回答这个问题的,下面的内容只是笔者根据一些研究经验,从偏理论的角度强行回答一波。

我们知道,一般的 NLP 任务都是根据给定的输入来预测输出,完全无条件的随机生成是很少的,换句话说,任何 NLP 任务都可以分解为“输入”跟“输出”两部分,我们可以把处理“输入”的模型叫做 Encoder,生成“输出”的模型叫做 Decoder,那么所有任务都可以从“Encoder-Decoder”的视角来理解,而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数:

这里的 GPT 就是 Decoder-only 的代表作;UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式;T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。

Google 在 T5 [2] 和 UL2 [3] 两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优势,但由于从 LLM 的角度看这两篇论文的模型尺度都还不算大,以及多数的 LLM 确实都是在做 Decoder-only 的,所以这个优势能否延续到更大尺度的 LLM 以及这个优势本身的缘由,依然都还没有答案。



对比实验


从上表可以看出,其实 GPT 跟 UniLM 相比才算是严格控制变量的,如果 GPT 直接跟 T5 相比,那实际上产生了两个变量:输入部分的注意力改为双向以及参数翻了一倍。而之所以会将它们三个一起对比,是因为它们的推理成本大致是相同的。

相比 GPT,既然 T5 有两个变量,那么我们就无法确定刚才说的 Encoder-Decoder 架构的优势,究竟是输入部分改为双向注意力导致的,还是参数翻倍导致的。为此,笔者在 10 亿参数规模的模型上做了 GPT 和 UniLM 的对比实验,结果显示对于同样输入输出进行从零训练(Loss 都是只对输出部分算,唯一的区别就是输入部分的注意力模式不同),UniLM 相比 GPT 并无任何优势,甚至某些任务更差。

假设这个结论具有代表性,那么我们就可以初步得到结论:

输入部分的注意力改为双向不会带来收益,Encoder-Decoder 架构的优势很可能只是源于参数翻倍。


换句话说,在同等参数量、同等推理成本下,Decoder-only 架构很可能是最优选择。当然,要充分验证这个猜测,还需要补做一些实验,比如 Encoder 和 Decoder 依然不共享参数,但 Encoder 也改为单向注意力,或者改为下一节介绍的正反向混合注意力,然后再对比常规的 Encoder-Decoder 架构。但笔者的算力有限,这些实验就留给有兴趣的读者了。



低秩问题


为什么“输入部分的注意力改为双向不会带来收益”呢?明明输入部分不需要考虑自回归生成,直觉上应该完整的注意力矩阵更好呀?笔者猜测,这很可能是因为双向注意力的低秩问题带来的效果下降。 

众所周知,Attention 矩阵一般是由一个低秩分解的矩阵加 softmax 而来,具体来说是一个 的矩阵与 的矩阵相乘后再加 softmax(),这种形式的 Attention 的矩阵因为低秩问题而带来表达能力的下降,具体分析可以参考《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》[4]

而 Decoder-only 架构的 Attention 矩阵是一个下三角阵,注意三角阵的行列式等于它对角线元素之积,由于 softmax 的存在,对角线必然都是正数,所以它的行列式必然是正数,即 Decoder-only 架构的 Attention 矩阵一定是满秩的!满秩意味着理论上有更强的表达能力,也就是说,Decoder-only 架构的 Attention 矩阵在理论上具有更强的表达能力,改为双向注意力反而会变得不足。

还有个间接支持这一观点的现象,那就是线性 Attention 在语言模型任务上(单向注意力)与标准 Attention 的差距,小于它在 MLM 任务上(双向注意力)与标准 Attention 的差距,也就是说,线性 Attention 在双向注意力任务上的效果相对更差。

这是因为线性 Attention 在做语言模型任务时,它的 Attention 矩阵跟标准 Attention 一样都是满秩的下三角阵;在做 MLM 任务时,线性 Attention 矩阵的秩比标准 Attention 矩阵更低(线性 Attention 是 的矩阵与 的矩阵相乘,秩一定不超过 d,标准 Attention 是 的矩阵与 的矩阵相乘后加 softmax,softmax 会有一定的升秩作用)。
反过来,这个结论能不能用来改进像 BERT 这样的双向注意力模型呢?思路并不难想,比如在 Multi-Head Attention 中,一半 Head 的 Attention 矩阵截断为下三角阵(正向注意力),另一半 Head 的 Attention 矩阵截断为上三角阵(反向注意力);又或者说奇数层的 Attention 矩阵截断为下三角阵(正向注意力),偶数层的 Attention 矩阵截断为上三角阵(反向注意力)。

这两种设计都可以既保持模型整体交互的双向性(而不是像 GPT 一样,前一个 token 无法跟后一个 token 交互),又融合单向注意力的满秩优点。笔者也简单做了对比实验,发现正反向混合的注意力在 MLM 任务上是比像 BERT 这样的全双向注意力模型效果稍微要好点的:

▲ 全双向注意力与正反向混合注意力的训练曲线比较
坏消息是这实验的只是一个 base 版本(1 亿参数)的模型,更大模型的效果尚未清楚。



文章小结


所以,笔者作出的回答是:LLM 之所以主要都用 Decoder-only 架构,除了训练效率和工程实现上的优势外,在理论上是因为 Encoder 的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而 Encoder-Decoder 架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only 架构就是最优选择了。


参考文献

[1] https://www.zhihu.com/question/588325646

[2] https://arxiv.org/abs/1910.10683

[3] https://arxiv.org/abs/2205.05131

[4] https://arxiv.org/abs/2103.03404


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大语言模型友好的 API:借助集体智慧构建更好的软件架构offer|格拉斯哥大学(LLM)斩获通商律所全职offer!是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?深度对话丨百度要做中国的大语言模型这件事本身就是不成立的?性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻我的第一件羽绒衣OpenAI 联合创始人、首席科学家 Ilya Sutskever 解读大语言模型的底层逻辑与未来边界Stable Diffusion公司重磅开源大语言模型StableLM,又爆火了!Firefly(流萤): 中文对话式大语言模型我大概中了奥密克戎 XBB.1.5 病了2天 缓过来了硬核观察 #934 Meta 的大语言模型 LLaMA 被泄露谷歌的又一波反击!开放大语言模型PaLM APIMeta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记由ChatGPT反思大语言模型(LLM)的技术精要NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录对标GPT-4!谷歌发布大语言模型PaLM 2,可在手机运行,云、搜索、电邮等一网打尽!单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等微档---唐德刚入境美国档案留学移民集训汉奸反华反共摇篮从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMAoffer|乔治华盛顿大学(LLM)斩获律所全职offer!Chat-REC: 用大语言模型增强传统推荐的全新范式7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型哎哟哟,这是多自信啊ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线“打包”BERT,Graphcore助力Pienso大语言模型更高效北京内推 | 阿里达摩院招聘大型语言模型(LLM)应用方向实习生首款人类粪便制成的口服药获美国FDA批准;谷歌本周将发布最新大语言模型PaLM 2|环球科学要闻比 ChatGPT 更早发布的微信大语言模型,现在什么水平?大语言模型(LLM)分布式训练框架总结
logo
联系我们隐私协议©2025 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。