Redian新闻
>
Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba架构第一次做大!混合Transformer,打败Transformer

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

精彩精彩,第一个把爆火Mamba架构真正扩展到足够的工作来了。

520亿参数,还是Mamba+Transformer混合架构。

它的名字叫Jamba

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。

初步跑分显示:

  • Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍

  • 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。

这项成果,来自以色列AI公司AI21labs

Mamba原作者看了之后都激动转发:

绝对的“大新闻”。

Mamba、Transformer,合体

由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)

但它也有自己的缺点——

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。

本着“既要也要”的原则,Jamba站出来提供两全其美之作。

Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。

如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。

简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层

其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。

最终模型容量高了,计算需求也没有相应的增加。

而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。

值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。

要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。

因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:

同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)

吞吐量和效率up

初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。

首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。

如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。

其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。

相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。

第三,Jamba的输出质量也得到了保证。

在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。

总体来说,Jamba的性能接近Mixtral 8x7B。

最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。

好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可

(Jamba的指令版本则将很快通过AI21labs平台上线。)

网友看完都感动哭了。

传送门:
https://huggingface.co/ai21labs/Jamba-v0.1

参考链接:
[1]
https://www.ai21.com/blog/announcing-jamba
[2]https://www.ai21.com/jamba
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Mamba再次击败Transformer!在视频理解任务中杀疯了!看今年奥斯卡提名电影"留守者"Mamba和Transformer合体!Jamba来了:超越Transformer!hé bàng?hé bèng?Meta革命新架构掀翻Transformer!无限上下文处理!旧文新感--和润涛阎的曾经对话图解Transformer架构设计Transformer解码真实场景!Meta推出70M参数SceneScript模型开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2Transformer要变Kansformer?用了几十年的MLP迎来挑战者KANTransformer升级之路:“复盘”长度外推技术Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文“报”:华人世界第一行为准则探索视频理解新境界!在12项任务中,Mamba先打败了Transformer性能突破Transformer!Mamba引爆AI圈纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023OpenAI公关跳起来捂他嘴!Transformer作者公开承认参与Q*!Transformer仍是2024发论文神器Robot Transformers 是什么 Transformer?中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱DeepMind升级Transformer,前向通过FLOPs最多可降一半人人都能当周杰伦!Suno作曲,ChatGPT写词,网友用Transformer造出神曲!Transformer已死?Mamba强的离谱!【五絕】讀詩小感7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾冰岛印象(5)Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了YOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一为什么Transformer一般使用LayerNorm?CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。