Redian新闻
>
Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

微软大模型新架构,正式向Transformer发起挑战!

论文标题明晃晃地写道:

Retentive Network(RetNet):大模型领域Transformer的继任者。

论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:

RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构,成为大语言模型中Transformer的有力继承者。

而实验数据也显示,在语言建模任务上:

  • RetNet可以达到与Transformer相当的困惑度(perplexity)

  • 推理速度达8.4倍

  • 内存占用减少70%

  • 具有良好的扩展性

并且当模型大小大于一定规模时,RetNet表现会优于Transformer。

Transformer果真“后继有模”了?具体详情,一起来看。

解决“不可能三角”

Transformer在大语言模型中的重要性毋庸置疑。无论是OpenAI的GPT系列,还是谷歌的PaLM、Meta的LLaMA,都是基于Transformer打造。

但Transformer也并非完美无缺:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为O(N);Transformer是内存密集型模型,序列越长,占用的内存越多。

在此之前,大家也不是没想过继续改进Transformer。但主要的几种研究方向都有些顾此失彼:

线性attention可以降低推理成本,但性能较差;

循环神经网络则无法进行并行训练。

也就是说,这些神经网络架构面前摆着一个“不可能三角”,三个角代表的分别是:并行训练、低成本推理和良好的扩展性能。

RetNet的研究人员想做的,就是化不可能为可能。

具体而言,RetNet在Transformer的基础上,使用多尺度保持(retention)机制替代了标准的自注意力机制

与标准自注意力机制相比,保持机制有几大特点:

引入位置相关的指数衰减项取代softmax,简化了计算,同时使前步的信息以衰减的形式保留下来。

引入复数空间表达位置信息,取代绝对或相对位置编码,容易转换为递归形式。

另外,保持机制使用多尺度的衰减率,增加了模型的表达能力,并利用GroupNorm的缩放不变性来提高retention层的数值精度。

RetNet的双重表示

每个RetNet块包含两个模块:多尺度保持(MSR)模块和前馈网络(FFN)模块。

保持机制支持以三种形式表示序列:

  • 并行

  • 递归

  • 分块递归,即并行表示和递归表示的混合形式,将输入序列划分为块,在块内按照并行表示进行计算,在块间遵循递归表示。

其中,并行表示使RetNet可以像Transformer一样高效地利用GPU进行并行训练。

递归表示实现了O(1)的推理复杂度,降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来,RetNet就使得“不可能三角”成为可能。以下为RetNet与其他基础架构的对比结果:

在语言建模任务上的实验结果,进一步证明了RetNet的有效性。

结果显示,RetNet可以达到与Transformer相似的困惑度(PPL,评价语言模型好坏的指标,越小越好)

同时,在模型参数为70亿、输入序列长度为8k的情况下,RetNet的推理速度能达到Transformer的8.4倍,内存占用减少70%

在训练过程中,RetNet在内存节省和加速效果方面,也比标准Transformer+FlashAttention表现更好,分别达到25-50%7倍

值得一提的是,RetNet的推理成本与序列长度无关,推理延迟对批量大小不敏感,允许高吞吐量。

另外,当模型参数规模大于20亿时,RetNet的表现会优于Transformer。

研究团队

RetNet的研究团队,来自微软亚研院和清华大学。

共同一作为孙宇涛和董力。

孙宇涛,清华大学计算机系本科,现在在微软亚研院实习。

董力,微软亚研院研究员。他也是此前引发大量关注的“能记住10亿token的Transformer”的论文作者之一。

RetNet论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人,10亿token Transformer亦是来自他的研究团队。

论文地址:
https://arxiv.org/abs/2307.08621

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤5074 血壮山河之武汉会战 黄广战役 6出事的陈师兄Electron末日来了?又一应用将其抛弃!WhatsApp强制推行原生应用:速度更快、内存占用更少大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖Transformer速查宝典:模型、架构、训练方法的论文都在这里了专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理降龙十八掌:这套优化transformer内存占用的组合技值得收藏华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+​基于窗剪枝的去局部模糊Transformer,提升像质同时加速推理2023回国 农家乐一日游(多图)无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述用 Transformer 和 RLHF「炼」大模型,危?炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens5分钟端侧部署视觉大模型!专为Transformer优化的AI芯片来了清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强火星乐园第三部《灰界》第十八章 信心价值transformer的细节到底是怎么样的?Transformer 连环18问!大妈是一种威武的存在让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。