Redian新闻
>
为什么现在的大语言模型(LLM)都是Decoder-only的架构?

为什么现在的大语言模型(LLM)都是Decoder-only的架构?

科技

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络



LLM 是“Large Language Model”的简写,目前一般指百亿参数以上的语言模型,主要面向文本生成任务。跟小尺度模型(10 亿或以内量级)的“百花齐放”不同,目前 LLM 的一个现状是 Decoder-only 架构的研究居多,像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了,即便是 Google 这样的并非全部押注在 Decoder-only 的公司,也确实投入了不少的精力去研究 Decoder-only 的模型,如 PaLM 就是其中之一。那么,为什么 Decoder-only 架构会成为 LLM 的主流选择呢? 


知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构?》[1],上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势,那么它有没有理论上的优势呢?本文试图从这个角度进行简单的分析。




统一视角


需要指出的是,笔者目前训练过的模型,最大也就是 10 亿级别的,所以从 LLM 的一般概念来看是没资格回答这个问题的,下面的内容只是笔者根据一些研究经验,从偏理论的角度强行回答一波。

我们知道,一般的 NLP 任务都是根据给定的输入来预测输出,完全无条件的随机生成是很少的,换句话说,任何 NLP 任务都可以分解为“输入”跟“输出”两部分,我们可以把处理“输入”的模型叫做 Encoder,生成“输出”的模型叫做 Decoder,那么所有任务都可以从“Encoder-Decoder”的视角来理解,而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数:

这里的 GPT 就是 Decoder-only 的代表作;UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式;T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。

Google 在 T5 [2] 和 UL2 [3] 两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优势,但由于从 LLM 的角度看这两篇论文的模型尺度都还不算大,以及多数的 LLM 确实都是在做 Decoder-only 的,所以这个优势能否延续到更大尺度的 LLM 以及这个优势本身的缘由,依然都还没有答案。



对比实验


从上表可以看出,其实 GPT 跟 UniLM 相比才算是严格控制变量的,如果 GPT 直接跟 T5 相比,那实际上产生了两个变量:输入部分的注意力改为双向以及参数翻了一倍。而之所以会将它们三个一起对比,是因为它们的推理成本大致是相同的。

相比 GPT,既然 T5 有两个变量,那么我们就无法确定刚才说的 Encoder-Decoder 架构的优势,究竟是输入部分改为双向注意力导致的,还是参数翻倍导致的。为此,笔者在 10 亿参数规模的模型上做了 GPT 和 UniLM 的对比实验,结果显示对于同样输入输出进行从零训练(Loss 都是只对输出部分算,唯一的区别就是输入部分的注意力模式不同),UniLM 相比 GPT 并无任何优势,甚至某些任务更差。

假设这个结论具有代表性,那么我们就可以初步得到结论:

输入部分的注意力改为双向不会带来收益,Encoder-Decoder 架构的优势很可能只是源于参数翻倍。


换句话说,在同等参数量、同等推理成本下,Decoder-only 架构很可能是最优选择。当然,要充分验证这个猜测,还需要补做一些实验,比如 Encoder 和 Decoder 依然不共享参数,但 Encoder 也改为单向注意力,或者改为下一节介绍的正反向混合注意力,然后再对比常规的 Encoder-Decoder 架构。但笔者的算力有限,这些实验就留给有兴趣的读者了。



低秩问题


为什么“输入部分的注意力改为双向不会带来收益”呢?明明输入部分不需要考虑自回归生成,直觉上应该完整的注意力矩阵更好呀?笔者猜测,这很可能是因为双向注意力的低秩问题带来的效果下降。 

众所周知,Attention 矩阵一般是由一个低秩分解的矩阵加 softmax 而来,具体来说是一个 的矩阵与 的矩阵相乘后再加 softmax(),这种形式的 Attention 的矩阵因为低秩问题而带来表达能力的下降,具体分析可以参考《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》[4]

而 Decoder-only 架构的 Attention 矩阵是一个下三角阵,注意三角阵的行列式等于它对角线元素之积,由于 softmax 的存在,对角线必然都是正数,所以它的行列式必然是正数,即 Decoder-only 架构的 Attention 矩阵一定是满秩的!满秩意味着理论上有更强的表达能力,也就是说,Decoder-only 架构的 Attention 矩阵在理论上具有更强的表达能力,改为双向注意力反而会变得不足。

还有个间接支持这一观点的现象,那就是线性 Attention 在语言模型任务上(单向注意力)与标准 Attention 的差距,小于它在 MLM 任务上(双向注意力)与标准 Attention 的差距,也就是说,线性 Attention 在双向注意力任务上的效果相对更差。

这是因为线性 Attention 在做语言模型任务时,它的 Attention 矩阵跟标准 Attention 一样都是满秩的下三角阵;在做 MLM 任务时,线性 Attention 矩阵的秩比标准 Attention 矩阵更低(线性 Attention 是 的矩阵与 的矩阵相乘,秩一定不超过 d,标准 Attention 是 的矩阵与 的矩阵相乘后加 softmax,softmax 会有一定的升秩作用)。
反过来,这个结论能不能用来改进像 BERT 这样的双向注意力模型呢?思路并不难想,比如在 Multi-Head Attention 中,一半 Head 的 Attention 矩阵截断为下三角阵(正向注意力),另一半 Head 的 Attention 矩阵截断为上三角阵(反向注意力);又或者说奇数层的 Attention 矩阵截断为下三角阵(正向注意力),偶数层的 Attention 矩阵截断为上三角阵(反向注意力)。

这两种设计都可以既保持模型整体交互的双向性(而不是像 GPT 一样,前一个 token 无法跟后一个 token 交互),又融合单向注意力的满秩优点。笔者也简单做了对比实验,发现正反向混合的注意力在 MLM 任务上是比像 BERT 这样的全双向注意力模型效果稍微要好点的:

▲ 全双向注意力与正反向混合注意力的训练曲线比较
坏消息是这实验的只是一个 base 版本(1 亿参数)的模型,更大模型的效果尚未清楚。



文章小结


所以,笔者作出的回答是:LLM 之所以主要都用 Decoder-only 架构,除了训练效率和工程实现上的优势外,在理论上是因为 Encoder 的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而 Encoder-Decoder 架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only 架构就是最优选择了。


参考文献

[1] https://www.zhihu.com/question/588325646

[2] https://arxiv.org/abs/1910.10683

[3] https://arxiv.org/abs/2205.05131

[4] https://arxiv.org/abs/2103.03404


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等大语言模型(LLM)分布式训练框架总结谷歌的又一波反击!开放大语言模型PaLM API对标GPT-4!谷歌发布大语言模型PaLM 2,可在手机运行,云、搜索、电邮等一网打尽!NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型offer|乔治华盛顿大学(LLM)斩获律所全职offer!从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?微档---唐德刚入境美国档案ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线留学移民集训汉奸反华反共摇篮由ChatGPT反思大语言模型(LLM)的技术精要Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】OpenAI 联合创始人、首席科学家 Ilya Sutskever 解读大语言模型的底层逻辑与未来边界Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记深度对话丨百度要做中国的大语言模型这件事本身就是不成立的?Firefly(流萤): 中文对话式大语言模型Chat-REC: 用大语言模型增强传统推荐的全新范式NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)首款人类粪便制成的口服药获美国FDA批准;谷歌本周将发布最新大语言模型PaLM 2|环球科学要闻性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻大语言模型友好的 API:借助集体智慧构建更好的软件架构Stable Diffusion公司重磅开源大语言模型StableLM,又爆火了!offer|格拉斯哥大学(LLM)斩获通商律所全职offer!我的第一件羽绒衣比 ChatGPT 更早发布的微信大语言模型,现在什么水平?UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5“打包”BERT,Graphcore助力Pienso大语言模型更高效硬核观察 #934 Meta 的大语言模型 LLaMA 被泄露我大概中了奥密克戎 XBB.1.5 病了2天 缓过来了哎哟哟,这是多自信啊北京内推 | 阿里达摩院招聘大型语言模型(LLM)应用方向实习生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。