Redian新闻
>
大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源

大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

只需给大模型“加点小零件”,推理速度立刻提升2倍!

不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快几小时就能微调完成。

这项新研究名叫Medusa(美杜莎),来自普林斯顿、UIUC、CMU和康涅狄格大学,FlashAttention作者Tri Dao也在其中。

目前,它已经成功部署到伯克利70亿参数的“骆马”Vicuna中,后续还会支持其他大模型,已经登上GitHub热榜:

但其实,在这种方法推出之前,业界并非没有大模型推理加速方法,主流的就是DeepMind推出的投机采样(speculative decoding)

相比这种方法,Medusa有什么不一样的地方?

投机采样的2个“bug”

要想加速大模型推理,需要先知道究竟是什么“限制”了它的速度。

相比计算量的增加,大模型推理速度更容易受到内存带宽的影响(memory bound)

这是因为,大模型由于参数量巨大、远超缓存容量,因此推理时需要先把权重从外部内存(显存)读取一次到缓存中,这个过程受内存带宽限制,速度通常很慢。

因此,模型做批量推理(batch inference)时,一次处理100个tokens和一个tokens时间上区别不大。

基于这个特点,DeepMind去年11月想出了一个名叫投机采样的神奇操作——

训练一个更小的模型(draft模型),给大模型提前生成一批“候选词”,相比于让大模型自己“思考”生成,直接做“选择”就好。

由于小模型生成速度比大模型快好几倍,一旦大模型觉得小模型已有的词“可用”,就直接拿来,不用自己再缓慢生成一遍。

这个过程,有点像是输入法的联想词候选,在我们(大模型)想好下一个词用什么之前,输入法(小模型)先给列出一些备选项:

要是看到觉得不错,就从中选一个用;要是觉得生成的都不行,就pass掉自己重新打。

这种投机采样方法确实取得了显著成效,甚至能轻轻松松在M2 Ultra上以高精度跑340亿参数LLaMA大模型。

BUT,这种方法存在两个问题。

一方面,给大模型找个生成“候选词”的draft小模型,没那么容易。

这个小模型可不是随便抓个生成模型就能用,除了接口统一、概率分布接近等要求,生成质量也不能比大模型差太多。

对于Meta发布的LLaMA这种模型可能还好,既有几百亿参数的大模型版本,又有几十亿参数的小模型版本,可以把参数量更小的版本拿来当draft模型使用。

但对于其他开源大模型,这种方法就不太适用了,自己去搭建训练一个小模型,不仅时间成本更高,生成效果可能还不达预期。

另一方面,双模型的组合,使得后续要想做系统调优变得更复杂

这是因为,相比于大模型自身是一个系统,新增加的draft模型相当于又引入了一个系统。

这样会导致模型部署起来更复杂,包括额外的网络传输、不同的硬件条件都需要考虑到,在做计算优化时难度也会进一步提升。

为了解决这些问题,Medusa出现了。

不用小模型,加几个“头”就行

Medusa(美杜莎,一种长有多个头的妖怪)是一种新的大模型推理加速方法。

相比投机采样,它选择直接给Transformer大模型多加几个解码头(decoding heads),每个头都是一个单层前馈网络。

这几个多出来的解码头,可以让大模型直接一次多生成几个词,而不是“挤牙膏式”一个一个生成。

生成准确率也还可以,在预测“下一个词的下一个词”时,Medusa准确率达到了60%,还在不断优化中。

随后,结合树状注意力机制(tree-based attention mechanism)并行验证这些词,从而实现推理加速。

基于Medusa,Vicuna的70亿、130亿和330亿参数大模型推理速度,均有了1.9倍以上的效率提升:

针对70亿参数的模型,研究者们还在不同任务上测试了一下加速效果,显示最高在代码生成上有2.15倍的速度提升。

最关键的是,用上Medusa后,并不需要将整个大模型重新训练一遍。

相比之下,它可以和大模型一起训练,只需要冻结大模型的参数就行,甚至单个GPU就能搞定。

由于不增加额外的模型,对于分布式推理也很友好。

作者介绍

这项研究有两位共同一作。

共同一作蔡天乐,普林斯顿大学博士生,研究方向包括优化、表示学习、架构设计等,本科毕业于北京大学数学科学学院,获得应用数学和计算机科学双学位。

共同一作Yuhong (Jesse) Li,伊利诺伊大学香槟分校(UIUC)博士生,研究方向是高效机器学习,本科毕业于北京邮电大学。

此外,这项研究也有FlashAttention作者、斯坦福博士Tri Dao的参与。

FlashAttention是一种能加快注意力并减少内存占用的方法,相比PyTorch标准注意力实现,最高能提速9倍。

GitHub地址:
https://github.com/FasterDecoding/Medusa

研究地址:
https://sites.google.com/view/medusa-llm

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
在美国的日子2023 CCF 中国开源大会丨开源商业化分论坛 即将开幕!ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐【社会】一司机时速235公里被拦截!77省曾有司机飙出时速266公里一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型上海交大梁晓峣:疯狂的大模型时代,开源GPGPU平台为国产AI芯片企业谋出路丨GACS 2023400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源行业观察 | 开源,阿里云想激发中国大模型生态半小时搞定满汉全席 | 西贝团圆家宴礼盒,红烧狮子头、梅菜扣肉、蒙古牛大骨…刚出锅的味道!ICML杰出论文开奖,北大数院、武汉理工校友获奖,苹果大模型相关研究入选傅美女的骑士勋章之充要条件推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快东瀛气象鹧鸪天(3)赛后访友果园大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤探索 prompt 编码范式:如何优雅构建测试代码生成提示词?数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少AI 拉升效率,1 小时搞定全套七夕主题设计(内含彩蛋)马斯克xAI首个研究成果发布!创始成员杨格&姚班校友共同一作大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性厉害国的厉害英语半小时搞懂 IO 模型《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报资中筠言小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大北大元培校友论文获ICML时间检验奖,Hinton弟子一作,生成式AI成今年热门获奖理由最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录震惊!研一师弟入学就发了6.36分SCI!20小时搞定,知道真相我……UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。