Redian新闻
>
第一篇Mamba综述来了!

第一篇Mamba综述来了!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

状态空间模型——用来替代Transformer的新生网络:综述
CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!
作者单位:安徽大学、哈尔滨工业大学、北京大学
论文:https://arxiv.org/abs/2404.09516
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List
    
引言

在本文中,我们首先初步介绍了状态空间模型(SSM)的工作原理。然后,我们将从多个方面回顾SSM的相关工作,包括SSM的起源和变化、自然语言处理、计算机视觉、图、多模态处理、多模态和多媒体、点云/事件流数据、时间序列数据等领域的相关工作。更重要的是,我们在多个下游任务中进行了广泛的实验,以验证SSM的有效性。下游的任务包括单/多标签分类、视觉目标跟踪、像素级分割、图像到文本的生成和人/车辆的重识别。我们还提出了SSM的在理论和应用上的一些可能的研究方向。最后,我们对本文作出了总结。我们真诚地希望这篇综述能更好地促进国家空间模型甚至人工智能的发展。

SSM的工作原理

状态空间模型(SSM)来源于经典的卡尔曼滤波器,如图1所示。它将一维输入信号U (t)映射到N-D的潜在状态X (t),然后投影到一维输出信号y (t)中。一般的计算过程可以在如下等式中定义:

公式中,X (t)∈Rn,y (t)∈Rq,U (t)∈Rp表示状态向量、输出向量和输入(或控制)向量。、B(t)∈Rn×p、C(t)∈Rq×n和D (t)∈Rq×p表示状态矩阵、输入矩阵、输出矩阵和前馈矩阵。当系统模型中没有直接馈通时,D (t)是一个零矩阵,因此,我们得到以下简化公式:   

由于原始系统矩阵是连续的,我们需要先进行离散化以面向计算机的处理,

如图2所示。对于Mamba体系结构,采用零阶保持(ZOH)进行离散化,我们有:

式中,= exp(∆A)、=(∆A)−1(exp(∆A)−I)·∆B,∆表示步长。如果我们用h和x表示状态向量和输入向量,我们得到以下与递归神经网络(RNN)模型计算过程相似的函数:

然而,与RNN模型类似,我们面临着计算不能并行化的困境。通过简单地扩展上述公式,我们可以得到:   

很容易发现,最后一项和倒数第二项的乘数总是C0和C1。因此,我们可以将这些因子看作是卷积核=C·(0,1,2,...,L),这里,L是给定输入序列的长度。我们可以重写公式(4)为以下卷积公式:

目前,我们得到了完整的SSM模型,可以实现训练的并行性,并适用于推理的线性复杂度的循环形式。在Transformer体系结构中,上下文信息存储在相似度矩阵中,但是SSM没有类似的模块,这使得它在上下文学习中表现较差。

为了解决这个问题,Gu等人提出了Mamba的体系结构,它从以下两个方面改进了SSM:1).选择性扫描操作允许模型过滤出相关的信息。在实际实现中,∆、B、C成为输入的函数,而矩阵A保持不变。2).硬件感知算法,允许通过并行扫描、内核融合和重新计算来有效地存储(中间)结果。图1的右侧提供了Mamba块的结构说明。由于其关键特性,许多研究人员试图使用SSM或Mamba架构来设计他们的模型。

SSM的相关工作

CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

1) 起源与变化(Origin and Variation of SSM):

2) 自然语言处理(Natural Language Processing):

  • 语言建模(language modeling)

  • 深度噪声抑制(deep noise suppression)

  • 临床笔记理解(clinical note understanding)

3)计算机视觉(Computer Vision)

  • 分类(classification)

  • 检测(detection)

  • 分割(segmentation)

  • 医学(medical)    

  • 重构(restoration)

  • 生成(generation)

  • 视频理解(video understanding)

  • 跟踪(track)

  • 其它(other)

4)图(Graph)

5)多模态和多媒体(Multi-modal and Multi-media)

6)时间流/点云数据(Event Stream/Point Cloud Data)

7)时间序列数据(Time Series Data)

8)其它(Others)

  • 连续序列预测(continuous sequence prediction)

  • 数字音频制作(digital audio production)

  • 世界模型(world model)

  • 混合专家(mixture-of-experts (MoE))

  • 自预训练(Self pretraining)

相关实验

1)单/多标签分类(Single-/Multi-label Classification)

2)视觉目标跟踪(Visual Object Tracking)  

3)文本到图像的生成(Image-to-Text Generation)

4)行人/车辆重识别(Person/Vehicle Re-Identification)    

挑战和机遇

  • 目前的SSM模型的性能仍然逊于主流的Transformer网络;

  • SSM在GPU使用中的优势值得进一步探索和研究;

  • 进一步探索SSM在高分辨率或长期视觉数据方面的优势,是一个值得关注和研究的方向;

  • 使用SSM架构进行预先训练的大型模型;

  • 使用SSM架构的多模态学习;

  • 开发新的SSM扫描操作;

  • SSM的泛化性能仍值得关注,并值得进一步的研究和改进;

  • 使用最新的SSM模型来增强现有的深度神经网络模型。

CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Mamba和遥感微信群来了!首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源可控图像生成最新综述!北邮开源20页249篇文献!Mamba微信交流群来了!特别策划|清华-INSEAD双学位EMBA项目(TIEMBA)招生简章重磅!一篇Science论文+一篇Cell论文首次在真核细胞中发现固氮细胞器Mamba再下一城!VideoMamba:高效视频理解的状态空间模型情人节的玫瑰LIFE MEDICINE | 合成生物学与医学最新万字综述减少量第一!人口第一城,压力来了!【Fenway酒店式翻新公寓】【9月早鸟优惠-限时半中介费】【NEU/Berklee学生看这一篇就够了!】Mamba和ReID微信群来了!不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型20小时搞定一篇综述!中科院博士强推的SCI速写套路,3.72万人都在学~大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战10个方法,“白嫖”公共数据库,发表自己的第一篇SCIMamba和Transformer合体!Jamba来了:超越Transformer!“中国制造”遍布波士顿?!MBTA宣布再花1.48亿美元购买中车车厢,能拯救MBTA现状吗?特邀丨在香港如何考驾照?看这一篇就够了!2024招生季:在职硕博(MBA/EMBA/DBA)直通车东京自由行(7)神舍和寺庙来了!热气球即将升空,体验堪培拉最浪漫的高空旅行吧!游玩攻略+热气球美景路线~看这一篇就够啦!陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述长篇小说《太门西》连载70:第24章:柳毅龙井(1)驴象早春战犹酣Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型倒计时5天丨2025级清华经管EMBA第一批次面试报名Mamba架构第一次做大!混合Transformer,打败Transformer来了,来了,它挥着“镰刀”走来了!宾州南瓜节,花样百出Mamba再下一城!RSMamba:遥感图像分类性能SOTA!清华大学团队NSR综述:混合神经网络(ANN+SNN→HNN)推动类脑计算
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。