Redian新闻
>
第一篇Mamba综述来了!

第一篇Mamba综述来了!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

状态空间模型——用来替代Transformer的新生网络:综述
CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!
作者单位:安徽大学、哈尔滨工业大学、北京大学
论文:https://arxiv.org/abs/2404.09516
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List
    
引言

在本文中,我们首先初步介绍了状态空间模型(SSM)的工作原理。然后,我们将从多个方面回顾SSM的相关工作,包括SSM的起源和变化、自然语言处理、计算机视觉、图、多模态处理、多模态和多媒体、点云/事件流数据、时间序列数据等领域的相关工作。更重要的是,我们在多个下游任务中进行了广泛的实验,以验证SSM的有效性。下游的任务包括单/多标签分类、视觉目标跟踪、像素级分割、图像到文本的生成和人/车辆的重识别。我们还提出了SSM的在理论和应用上的一些可能的研究方向。最后,我们对本文作出了总结。我们真诚地希望这篇综述能更好地促进国家空间模型甚至人工智能的发展。

SSM的工作原理

状态空间模型(SSM)来源于经典的卡尔曼滤波器,如图1所示。它将一维输入信号U (t)映射到N-D的潜在状态X (t),然后投影到一维输出信号y (t)中。一般的计算过程可以在如下等式中定义:

公式中,X (t)∈Rn,y (t)∈Rq,U (t)∈Rp表示状态向量、输出向量和输入(或控制)向量。、B(t)∈Rn×p、C(t)∈Rq×n和D (t)∈Rq×p表示状态矩阵、输入矩阵、输出矩阵和前馈矩阵。当系统模型中没有直接馈通时,D (t)是一个零矩阵,因此,我们得到以下简化公式:   

由于原始系统矩阵是连续的,我们需要先进行离散化以面向计算机的处理,

如图2所示。对于Mamba体系结构,采用零阶保持(ZOH)进行离散化,我们有:

式中,= exp(∆A)、=(∆A)−1(exp(∆A)−I)·∆B,∆表示步长。如果我们用h和x表示状态向量和输入向量,我们得到以下与递归神经网络(RNN)模型计算过程相似的函数:

然而,与RNN模型类似,我们面临着计算不能并行化的困境。通过简单地扩展上述公式,我们可以得到:   

很容易发现,最后一项和倒数第二项的乘数总是C0和C1。因此,我们可以将这些因子看作是卷积核=C·(0,1,2,...,L),这里,L是给定输入序列的长度。我们可以重写公式(4)为以下卷积公式:

目前,我们得到了完整的SSM模型,可以实现训练的并行性,并适用于推理的线性复杂度的循环形式。在Transformer体系结构中,上下文信息存储在相似度矩阵中,但是SSM没有类似的模块,这使得它在上下文学习中表现较差。

为了解决这个问题,Gu等人提出了Mamba的体系结构,它从以下两个方面改进了SSM:1).选择性扫描操作允许模型过滤出相关的信息。在实际实现中,∆、B、C成为输入的函数,而矩阵A保持不变。2).硬件感知算法,允许通过并行扫描、内核融合和重新计算来有效地存储(中间)结果。图1的右侧提供了Mamba块的结构说明。由于其关键特性,许多研究人员试图使用SSM或Mamba架构来设计他们的模型。

SSM的相关工作

CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

1) 起源与变化(Origin and Variation of SSM):

2) 自然语言处理(Natural Language Processing):

  • 语言建模(language modeling)

  • 深度噪声抑制(deep noise suppression)

  • 临床笔记理解(clinical note understanding)

3)计算机视觉(Computer Vision)

  • 分类(classification)

  • 检测(detection)

  • 分割(segmentation)

  • 医学(medical)    

  • 重构(restoration)

  • 生成(generation)

  • 视频理解(video understanding)

  • 跟踪(track)

  • 其它(other)

4)图(Graph)

5)多模态和多媒体(Multi-modal and Multi-media)

6)时间流/点云数据(Event Stream/Point Cloud Data)

7)时间序列数据(Time Series Data)

8)其它(Others)

  • 连续序列预测(continuous sequence prediction)

  • 数字音频制作(digital audio production)

  • 世界模型(world model)

  • 混合专家(mixture-of-experts (MoE))

  • 自预训练(Self pretraining)

相关实验

1)单/多标签分类(Single-/Multi-label Classification)

2)视觉目标跟踪(Visual Object Tracking)  

3)文本到图像的生成(Image-to-Text Generation)

4)行人/车辆重识别(Person/Vehicle Re-Identification)    

挑战和机遇

  • 目前的SSM模型的性能仍然逊于主流的Transformer网络;

  • SSM在GPU使用中的优势值得进一步探索和研究;

  • 进一步探索SSM在高分辨率或长期视觉数据方面的优势,是一个值得关注和研究的方向;

  • 使用SSM架构进行预先训练的大型模型;

  • 使用SSM架构的多模态学习;

  • 开发新的SSM扫描操作;

  • SSM的泛化性能仍值得关注,并值得进一步的研究和改进;

  • 使用最新的SSM模型来增强现有的深度神经网络模型。

CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
外挂来了!中科院博士都在用的AI工具,不用翻墙就能用!2小时就能完成一篇SCI……Cell重磅综述:“第一热门研究靶点”p53发现45周年,一个复杂却发人深省的故事2024招生季:在职硕博(MBA/EMBA/DBA)直通车东京自由行(7)神舍和寺庙【高级公寓】Cambridge Park|Cambridge|城市花园中温馨的家视觉Mamba收录顶会!Mamba论文合集来了Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型今日实习|高盛开启Pre-MBA项目,MBA学生可申请!来了!热气球即将升空,体验堪培拉最浪漫的高空旅行吧!游玩攻略+热气球美景路线~看这一篇就够啦!重磅!一篇Science论文+一篇Cell论文首次在真核细胞中发现固氮细胞器宾州南瓜节,花样百出驴象早春战犹酣特别策划|清华-INSEAD双学位EMBA项目(TIEMBA)招生简章完了!美国经济危机要来了吗?要做什么准备?一篇文章告诉你现状~美国经济危机要来了吗?要做什么准备?一篇文章告诉你现状~Mamba微信交流群来了!Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源Mamba官方升级!Mamba-2重磅发布!原班人马打造!ICML 2024PointMamba迎来更新!​Mamba在点云分析中是否能替代Transformer?20小时搞定一篇综述!中科院博士强推的SCI速写套路,3.72万人都在学~“中国制造”遍布波士顿?!MBTA宣布再花1.48亿美元购买中车车厢,能拯救MBTA现状吗?Mamba和多模态学习微信群来了!37.3分!1个信号通路就能撑起一篇高分综述!快来免费get信号通路的入门密钥……长篇小说《太门西》连载70:第24章:柳毅龙井(1)10个方法,“白嫖”公共数据库,发表自己的第一篇SCIMamba再下一城!VideoMamba:高效视频理解的状态空间模型Mamba和ReID微信群来了!Mamba和遥感微信群来了!Mamba杀入MICCAI 2024!SegMamba和Swin-UMamba均收录!LLM综述出书了!人大高瓴赵鑫老师组发布全新大语言模型中文书情人节的玫瑰Mamba再下一城!RSMamba:遥感图像分类性能SOTA!不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!Mamba和Transformer合体!Jamba来了:超越Transformer!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。