Redian新闻
>
Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

公众号新闻
机器之心报道
编辑:小舟

Mamba 时代来了?

自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。


然而,transformer 架构实际上有两个显著缺点:


  • 内存占用大:Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性,从而限制了广泛的实验和部署。 

  • 随着上下文长度的增加,推理速度会变慢:Transformer 的注意力机制随序列长度呈二次方扩展,并且会降低吞吐量,因为每个 token 都依赖于它之前的整个序列,从而将长上下文用例置于高效生产的范围之外。


但 transformer 并不是生成式人工智能唯一的前进方向。最近,AI21 Labs 推出并开源了一种名为「Jamba」的新方法,在多个基准上超越了 transformer。



Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1



Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而,Mamba 方法很难提供与 transformer 模型相同的输出水平。 


Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,旨在将 SSM 和 transformer 的最佳属性结合在一起。



Jamba 还可以作为 NVIDIA NIM 推理微服务从 NVIDIA API 目录进行访问,企业应用程序开发人员可以使用 NVIDIA AI Enterprise 软件平台进行部署。


‍总的来说,Jamba 模型具有以下特点:


  • 第一个基于 Mamba 的生产级模型,采用新颖的 SSM-Transformer 混合架构;

  • 与 Mixtral 8x7B 相比,长上下文上的吞吐量提高了 3 倍;

  • 提供对 256K 上下文窗口的访问;

  • 公开了模型权重;

  • 同等参数规模中唯一能够在单个 GPU 上容纳高达 140K 上下文的模型。


模型架构


如下图所示,Jamba 的架构采用块层(blocks-and-layers)方法,使 Jamba 能够集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器(MLP),从而形成 transformer 层。



Jamba 利用 MoE 来增加模型参数的总数,同时简化推理中使用的活跃参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量,研究团队优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留出了足够的内存。


Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B,并且其混合架构使这些 12B 活跃参数比同等大小的纯 transformer 模型更有效。 

此前,没有人将 Mamba 扩展到 3B 参数之外。Jamba 是同类模型中第一个达到生产级规模的混合架构。


吞吐量和效率


初步评估实验表明,Jamba 在吞吐量和效率等关键衡量指标上表现出色。

在效率方面,Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍。Jamba 比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效。


在成本方面,Jamba 可以在单个 GPU 上容纳 140K 上下文。与当前类似大小的其他开源模型相比,Jamba 能提供更多的部署和实验机会。



需要注意的是,Jamba 目前不太可能取代当前基于 Transformer 的大型语言模型 (LLM),但它可能会成为某些领域的补充。


参考链接:

https://www.ai21.com/blog/announcing-jamba

https://venturebeat.com/ai/ai21-labs-juices-up-gen-ai-transformers-with-jamba/



首届中国具身智能大会(CEAI 2024)即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。

本次大会由中国人工智能学会(CAAI)主办,CAAI 具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家 AI 媒体合作。

盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。

立即扫码注册,共享科技盛宴!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
性能突破Transformer!Mamba引爆AI圈大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊开源日报 | 清明节前AI复活亲人成热门生意;中国没有“百模大战”,未来也不会有“十模大战”;谁将替代Transformer?CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术Transformer要变Kansformer?用了几十年的MLP迎来挑战者KANRobot Transformers 是什么 Transformer?Transformer已死?Mamba强的离谱!定西Mamba和Transformer合体!Jamba来了:超越Transformer!现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了AI 大神首次承认参与神秘模型 Q* 研发,把 OpenAI 吓坏了 | Transformer 作者专访祝贺择木而栖担任版主!Need You Now!探索视频理解新境界!在12项任务中,Mamba先打败了TransformerAPAD:if you pay peanuts, you get monkeysWhy Tech Alone Won’t Free Women From Their ChainsHow Much Do I Really Need to Retire?hé bàng?hé bèng?美股又创新高了,你还在观望吗?OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战【长篇小说】县委副书记(026)Transformer解码真实场景!Meta推出70M参数SceneScript模型YOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一【新春对对碰】“All I Ask Of You” 男女声自碰 by 云起“再见,Terraform”! HashiCorp被收购后,开发者跪求 IBM:不要合并 Terraform 和 Ansible革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2过紧日子;掼蛋扑克;特斯拉赛博电动皮卡;燃油宝不是宝DeepMind升级Transformer,前向通过FLOPs最多可降一半高效涨点!用Transformer模型发Nature子刊(文末送书)Meta革命新架构掀翻Transformer!无限上下文处理!纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023聊一下关于孩子上大学和挣大钱的事情Mamba再次击败Transformer!在视频理解任务中杀疯了!为什么Transformer一般使用LayerNorm?张鹏对谈安克阳萌:GPU 和 Transformer 可能是中间态,机器人+大模型会诞生超级品类Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革【星坛综艺会11期】暖场 “Need You Now”,综艺会即将开始, 此刻需要你Mamba架构第一次做大!混合Transformer,打败Transformer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。