Redian新闻
>
一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

科技
梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。

多token预测模型,在编程类任务上表现尤其突出

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。

小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。

不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。

另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。

使用大量文本数据进行模型训练,包括代码和自然语言数据集。

再通过实验比较多token预测和单token预测在多个下游任务上的性能。

为啥多token预测在编程任务和小型算法推理任务上提升更明显?

团队猜测可能有两个原因:

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。

除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。

而且推理速度还能再快6倍,简直不要太香。

对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。

从信息论的角度,团队还给出了一个更精确的论证。

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。

不过在这篇论文中,还有几个未解决的问题。

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题

此外最佳的词表大小也可能与单token预测时不同。

总之,看过这篇论文之后,大家都更期待Llama-4了。

论文地址:
https://arxiv.org/abs/2404.19737

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型预测,下一个token何必是文字?数据分析|一线数据科学家教研组用心研发,编程技巧+模型理解+实战项目,全方位提升数据分析综合能力!北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力AI辅助内部研发效率提升,昇腾大模型推理的最佳实践腾讯 PCG 自研高性能大语言模型推理引擎「一念 LLM」正式开源「超星未来」完成数亿元Pre-B轮融资,加码边缘侧大模型推理芯片使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理从以巴战争的态度看人的认知障碍个人感慨之109 不吹牛会死多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级零一万物李谋:当大模型推理遇到算力瓶颈,如何进行工程优化?华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒饮食高球味,人间烟火情(11)高球“黑话”多CoT out了!新加坡国立让符号逻辑在大模型推理中换发新春加快410倍!字节豆包新工作TiTok:全新图像Tokenizer!生成图像最低只需32个token腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+童话世界,丹麦小镇SolvangMeta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法《人民就是江山》&《我追烟火而来》Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍小米大模型提效新框架:训练最高提速34%,推理最高提速52%!Kaldi之父合作出品面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选每秒800个token,这颗AI芯片挑战英伟达今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。