国际科技财经博客移民网络热点娱乐民生时事公众号

>

抛弃自回归，连接一致性Diffusion和LLM！UCSD上交新作热度紧追AF 3

抛弃自回归，连接一致性Diffusion和LLM！UCSD上交新作热度紧追AF 3

公众号新闻

2024-05-10 12:05

新智元报道

编辑：乔杨好困

【新智元导读】来自加州大学圣地亚哥分校和上海交通大学的几位研究者发表了他们关于「一致性大语言模型」的研究成果（Consistency LLM），使用Jacobi解码算法实现并行化并使用「一致性损失函数」，将文字生成速度提升了2.4-3.4倍。

DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门，成为了Hacker News等许多科技媒体的头版头条。

Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。

到底是什么样的成果，竟然可以顶着AlphaFold 3的热度出圈？

这篇论文不仅切中了大语言模型推理速度慢的痛点，而且实现了性能大幅度提升。

CLLM在多个下游任务上都取得了2-3倍的加速，且推理过程没有引入额外成本。在GSM8K和Spider两个任务中，相比今年1月刚发布的Medusa 2都有了明显提升。

论文的两位共同一作都是一年级博士生，分别是来自上海交通大学的寇思麒和来自加州大学圣地亚哥分校的胡岚翔，他们的指导老师是交大的邓志杰教授和UCSD的张昊教授，后者也是Vicuna/vLLM/Chatbot Arena等项目的作者。

目前这篇论文已经被ICML 2024会议接收，所用代码已在GitHub上开源，可以在HuggingFace仓库上看到模型多个版本的权重。

https://huggingface.co/cllm

https://github.com/hao-ai-lab/Consistency_LLM

LLM苦推理速度久矣

以GPT和Llama家族为代表的大语言模型虽然可以出色地完成人类语言任务，但代价也是巨大的。

除了参数量大，推理速度慢、token吞吐量低也是经常被人诟病的问题，尤其是对于上下文信息较多的任务，因此大语言模型的部署和在现实中的应用十分受限。

Reddit上经常有开发者询问减少LLM推理时间的方法，有人曾经发帖，在64G GPU内存、4块英伟达T4芯片上用langchain部署7B的Llama 2模型后，需要10秒钟回答较小的查询，较大的查询则需要3分钟。

为了提高推理速度和token吞吐量，研究者们想了很多方法，比如去年很流行的vLLM推理框架，就是通过改进注意力算法来提高语言模型的效率。

CLLM的思路则放在了解码上，使用更适合并行的Jacobi算法替代传统的自回归方法。

Jacobi解码算法

自回归解码算法在运行时，每次只能基于已知序列生成1个token，这种基于时间序列的算法对GPT之类的大模型非常不友好，要想实现并行化的推理，就必须修改模型架构或者添加额外的构件。

这篇研究则提出，使用Jacobi解码算法取代传统的自回归，每一次解码可以同时生成序列后n个token。

Jacobi解码源自用于求解非线性方程的Jacobi和Gauss-Seidel定点迭代，并被证明与使用贪婪解码的自回归生成相同。

给定一个初始序列时，首先生成n个随机token作为起始点，之后将这n个token的优化问题看作n个非线性方程组，里面含有的n个变量可以基于Jacobi迭代并行求解。

每一次Jacobi迭代可以预测出一个或多个正确的token，进行多轮迭代直至收敛，就完成了n个token的预测，迭代的过程形成Jacobi轨迹。

本篇文章所用Jacobi算法的灵感追溯至2021年的一篇论文，用求解非线性方程组加速神经网络计算。

论文地址：https://arxiv.org/pdf/2002.03629

以及张昊组的另一篇论文lookahead decoding：

论文地址：https://arxiv.org/pdf/2402.02057

一致性语言模型

使用Jacobi算法解码时，大语言模型的推理过程可以被归纳为——一致地将雅可比轨迹 𝐽 上的任何点 𝑦 映射到固定点 𝑦∗ ，而这个训练目标和一致性模型非常相似。

「一致性模型」最初由ICML 2023的一篇论文提出，作者是四位大名鼎鼎的OpenAI研究科学家：Ilya Sutskever、宋飏、Mark Chen以及DALLE3的作者之一Prafulla Dhariwal。

论文地址：https://arxiv.org/pdf/2303.01469

因此，这项研究提出在目标语言模型的基础上，联合两种损失函数来调整CLLM——一致性损失（consistency loss）保证同时预测多个token，自回归损失防止CLLM偏离目标语言模型，保证生成质量的同时提升效率。

实验结果也比较理想，CLLM方法确实可以在接近目标模型生成效果的同时，大幅加快生成速度，从原有的约40 token/s提升至超过120 token/s。

除了推理性能的提升，这种解码方法也在更抽象的层次上提升了LLM的能力。

由于不再是逐个生成token而是同时预测序列后面的n个token，CLLM似乎理解了一个重要的语言概念——词语搭配。

它会更频繁地生成固定的词组和术语，比如「与...交谈」，或者编程语言中「if...else...」这样的常用语法结构，这似乎也更符合人类使用语言的习惯。

参考资料：

https://hao-ai-lab.github.io/blogs/cllm/

https://news.ycombinator.com/item?id=40302201

https://www.reddit.com/r/MachineLearning/comments/15851sr/d_how_do_i_reduce_llm_inferencing_time/

https://aws.amazon.com/what-is/autoregressive-models/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

顶格惩罚！UCSD中国留学生抢枪袭警，被判近23年监禁，接近一级谋杀罪的刑期 Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩最新！UCSD中国留学生，在美国夺枪袭警！被判22年零8个月监禁!重译杰尔查文《纪念碑》Stable Diffusion老板跑路开新坑，被抛下的SD3开源成了烂摊子永居四十七 Canterbury (二)在加州留学安全吗？UC Berkeley犯罪案件最多，UCLA、UCSD不遑多让 Meta 如何将缓存一致性提高到 99.99999999 LeCun登上月球？南开&字节新作StoryDiffusion：让多图漫画和长视频更连贯捷报：UCLA+7、卡耐基梅隆大学+1、弗吉尼亚大学、UCSD+16、罗切斯特大学+4（有奖学金）、哈沃福特学院录取到！UCSD学员积极投递简历，收获20多个面试，最终成功斩获两个美国实习offer！RD放榜继续！UCSB+28，南加大+5，UNC+5，Swarthmore+1，CMC+1…又一阵Offer雨！中国平安医养战略进展几何？对话联席CEO郭晓涛：平台化布局，上下游联动，一致性输出 UCSD限制CS等热门专业转入机会，“曲线救国”行不通了？大动作！UIUC将成立CS新学院，卷到爆的CS专业申请难度又升级了？Pika联创参与新研究：Diffusion能抢GPT的活了！成功挑战自回归文本范式（3.24）2024 CSRankings美国「CS专业」排名！MIT跌出前5，UCSD比伯克利还牛......LeCun哈佛演讲PPT放出：唱衰自回归LLM，指明下一代AI方向哈佛、MIT大骚乱！UCSD64人被捕转为远程教学，首个藤校毕业典礼取消！相隔3000英里，用苹果头显遥控机器人！UCSD、MIT华人团队开源TeleVision 手推车及我 GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4 UCSD背刺UCLA成为最受申请者欢迎分校，UC系申请人数持续突破20万！加州名校UCB和UCSD发布“高需求专业”清单！“曲线救国”转专业越来越难了！青城山奇遇记（上）突发！UCSD64人被捕，全部教学转为远程！今日arXiv最热NLP大模型论文：对指令太敏感？山东大学提出一致性对齐法，治好大模型敏感体质！[旅游] Día de la Independencia | 2017年9月游墨西哥城第3-4天优雅实现多系统一致性补偿方案 UCLA和UCSD狂发Waitlist，转正机会大吗？美元美股黄金惊现一致性下跌,2024夏季美元流动性危机即将来袭?再回首（十四）统一角色、百变场景，视频生成神器PixVerse被网友玩出了花，超强一致性成「杀招」喜报｜UCSD+1、UCD+1、南加州建筑+1、FRC机器人挑战赛创新奖+1 CSRankings美国CS专业排名出炉！MIT跌出前5，UCSD比伯克利还牛......

热点事件追踪