Redian新闻
>
Mamba和Transformer合体!Jamba来了:超越Transformer!

Mamba和Transformer合体!Jamba来了:超越Transformer!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散和多模态】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:机器之心 | 编辑:小舟

Mamba 时代来了?

自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。


然而,transformer 架构实际上有两个显著缺点:


  • 内存占用大:Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性,从而限制了广泛的实验和部署。 

  • 随着上下文长度的增加,推理速度会变慢:Transformer 的注意力机制随序列长度呈二次方扩展,并且会降低吞吐量,因为每个 token 都依赖于它之前的整个序列,从而将长上下文用例置于高效生产的范围之外。


但 transformer 并不是生成式人工智能唯一的前进方向。最近,AI21 Labs 推出并开源了一种名为「Jamba」的新方法,在多个基准上超越了 transformer。



Hugging Face 地址:https://huggingface.co/ai21labs/Jamba-v0.1



Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而,Mamba 方法很难提供与 transformer 模型相同的输出水平。 


Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,旨在将 SSM 和 transformer 的最佳属性结合在一起。



Jamba 还可以作为 NVIDIA NIM 推理微服务从 NVIDIA API 目录进行访问,企业应用程序开发人员可以使用 NVIDIA AI Enterprise 软件平台进行部署。


‍总的来说,Jamba 模型具有以下特点:


  • 第一个基于 Mamba 的生产级模型,采用新颖的 SSM-Transformer 混合架构;

  • 与 Mixtral 8x7B 相比,长上下文上的吞吐量提高了 3 倍;

  • 提供对 256K 上下文窗口的访问;

  • 公开了模型权重;

  • 同等参数规模中唯一能够在单个 GPU 上容纳高达 140K 上下文的模型。


模型架构


如下图所示,Jamba 的架构采用块层(blocks-and-layers)方法,使 Jamba 能够集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器(MLP),从而形成 transformer 层。



Jamba 利用 MoE 来增加模型参数的总数,同时简化推理中使用的活跃参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量,研究团队优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留出了足够的内存。


Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B,并且其混合架构使这些 12B 活跃参数比同等大小的纯 transformer 模型更有效。 

此前,没有人将 Mamba 扩展到 3B 参数之外。Jamba 是同类模型中第一个达到生产级规模的混合架构。


吞吐量和效率


初步评估实验表明,Jamba 在吞吐量和效率等关键衡量指标上表现出色。

在效率方面,Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的 3 倍。Jamba 比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效。


在成本方面,Jamba 可以在单个 GPU 上容纳 140K 上下文。与当前类似大小的其他开源模型相比,Jamba 能提供更多的部署和实验机会。



需要注意的是,Jamba 目前不太可能取代当前基于 Transformer 的大型语言模型 (LLM),但它可能会成为某些领域的补充。


参考链接:

https://www.ai21.com/blog/announcing-jamba

https://venturebeat.com/ai/ai21-labs-juices-up-gen-ai-transformers-with-jamba/

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
原作者带队!LSTM真杀回来了:我要夺回Transformer拿走的一切Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满YOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术Robot Transformers 是什么 Transformer?Mamba架构第一次做大!混合Transformer,打败Transformerhé bàng?hé bèng?黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满扩散模型和Transformer引爆时序方向!性能突破Transformer!Mamba引爆AI圈Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2Transformer解码真实场景!Meta推出70M参数SceneScript模型探索视频理解新境界!在12项任务中,Mamba先打败了Transformer开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战(古詩英譯) 過始皇墓 – 王維Transformer高频面试题来了!Mamba再次击败Transformer!在视频理解任务中杀疯了!Transformer升级之路:“复盘”长度外推技术Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱为什么Transformer一般使用LayerNorm?野夫:让记忆抵抗Meta革命新架构掀翻Transformer!无限上下文处理!Transformer仍是2024发论文神器7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023一缕青烟入大漠(三)江津之缘 1/4【七律】聽天路有感其二今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT面试被问到了:手撕Transformer现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了也说说昆明动物园的猫Transformer已死?Mamba强的离谱!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。