Redian新闻
>
视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型

视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

转载自:机器之心 
Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

上周四, Vision Mamba(Vim)的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天,中国科学院、华为、鹏城实验室的研究人员提出了 VMamba:一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。


  • 论文标题:VMamba: Visual State Space Model

  • 论文地址: https://arxiv.org/abs/2401.10166

  • 代码地址: https://github.com/MzeroMiko/VMamba


CNN 和视觉 Transformer(ViT)是当前最主流的两类基础视觉模型。尽管 CNN 具有线性复杂度,ViT 具有更为强大的数据拟合能力,然而代价是计算复杂较高。研究者认为 ViT 之所以拟合能力强,是因为其具有全局感受野和动态权重。受 Mamba 模型的启发,研究者设计出一种在线性复杂度下同时具有这两种优秀性质的模型,即 Visual State Space Model(VMamba)。大量的实验证明,VMamba 在各种视觉任务中表现卓越。如下图所示,VMamba-S 在 ImageNet-1K 上达到 83.5% 的正确率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。



方法介绍



VMamba 成功的关键在于采用了 Selective Scan Space State Sequential Model(S6 模型)。该模型设计之初是用于解决自然语言处理(NLP)任务。与 ViT 中注意力机制不同,S6 将 1D 向量中的每个元素(例如文本序列)与在此之前扫描过的信息进行交互,从而有效地将二次复杂度降低到线性。


然而,由于视觉信号(如图像)不像文本序列那样具有天然的有序性,因此无法在视觉信号上简单地对 S6 中的数据扫描方法进行直接应用。为此研究者设计了 Cross-Scan 扫描机制。Cross-Scan 模块(CSM)采用四向扫描策略,即从特征图的四个角同时扫描(见上图)。该策略确保特征中的每个元素都以不同方向从所有其他位置整合信息,从而形成全局感受野,又不增加线性计算复杂度。



在 CSM 的基础上,作者设计了 2D-selective-scan(SS2D)模块。如上图所示,SS2D 包含了三个步骤:


  • scan expand 将一个 2D 特征沿 4 个不同方向(左上、右下、左下、右上)展平为 1D 向量。

  • S6 block 独立地将上步得到的 4 个 1D 向量送入 S6 操作。

  • scan merge 将得到的 4 个 1D 向量融合为一个 2D 特征输出。



上图为本文提出的 VMamba 结构图。VMamba 的整体框架与主流的视觉模型类似,其主要区别在于基本模块(VSS block)中采用的算子不同。VSS block 采用了上述介绍的 2D-selective-scan 操作,即 SS2D。SS2D 保证了 VMamba 在线性复杂度的代价下实现全局感受野。


实验结果

ImageNet 分类



通过对比实验结果不难看出,在相似的参数量和 FLOPs 下:


  • VMamba-T 取得了 82.2% 的性能,超过 RegNetY-4G 达 2.2%、DeiT-S 达 2.4%、Swin-T 达 0.9%。

  • VMamba-S 取得了 83.5% 的性能,超过 RegNetY-8G 达 1.8%,Swin-S 达 0.5%。

  • VMamba-B 取得了 83.2% 的性能(有 bug,正确结果将尽快在 Github 页面更新),比 RegNetY 高 0.3%。


这些结果远高于 Vision Mamba (Vim) 模型,充分验证了 VMamba 的潜力。


COCO 目标检测



在 COOCO 数据集上,VMamba 也保持卓越性能:在 fine-tune 12 epochs 的情况下,VMamba-T/S/B 分别达到 46.5%/48.2%/48.5% mAP,超过了 Swin-T/S/B 达 3.8%/3.6%/1.6% mAP,超过 ConvNeXt-T/S/B 达 2.3%/2.8%/1.5% mAP。这些结果验证了 VMamba 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。


ADE20K 语义分割



在 ADE20K 上,VMamba 也表现出卓越性能。VMamba-T 模型在 512 × 512 分辨率下实现 47.3% 的 mIoU,这个分数超越了所有竞争对手,包括 ResNet,DeiT,Swin 和 ConvNeXt。这种优势在 VMamba-S/B 模型下依然能够保持。


分析实验


有效感受野



VMamba 具有全局的有效感受野,其他模型中只有 DeiT 具有这个特性。但是值得注意的是,DeiT 的代价是平方级的复杂度,而 VMamaba 是线性复杂度。


输入尺度缩放



  • 上图(a)显示,VMamba 在不同输入图像尺寸下展现出最稳定的性能(不微调)。有意思的是,随着输入尺寸从 224 × 224 增加到 384 × 384,只有 VMamba 表现出性能明显上升的趋势(VMamba-S 从 83.5% 上升到 84.0%),突显了其对输入图像大小变化的稳健性。

  • 上图(b)显示,VMamba 系列模型随着输入变大,复杂性呈线性增长,这与 CNN 模型是一致的。


最后,让我们期待更多基于 Mamba 的视觉模型被提出,并列于 CNNs 和 ViTs,为基础视觉模型提供第三种选择。

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

计算机视觉技术交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
细思极恐! 变态空少引诱少女到头等舱 藏手机偷拍 被抓包后躲进厕所刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!56、57 长篇民国小说《永泰里》第十一章 铁蹄之下(5)&(6)64、65、长篇民国小说《永泰里》第十三章 螳螂捕蝉(3)&(4)华为&中科大提出TinySAM:手机就能实时跑的分割一切模型卢伟冰将接手小米;百度输入法推出VIP功能;库克回应头显国内推出时间:快了联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型AI看视频自动找“高能时刻”|字节&中科院自动化所@AAAI 2024MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLPAAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力60、61、长篇民国小说《永泰里》第十二章 引狼入室(3)&(4)LVMH集团主席最信赖的干将之一,Michael Burke 接掌 LVMH时尚集团中科院心理所/北京大学/华东理工/新加坡国立大学等招聘RA、项目主管、实习生等|海内外心理学相关RA&工作求推荐 舒适&性价比高 的女孩网球鞋OpenAI推出Vision Pro版ChatGPT;消息称谷歌将把Bard更名为Gemini,并推出独立应用丨AIGC日报腾讯领投一生物制药企业;中科院等参投航天公司6亿;医疗行业融资达15亿元|硬氪纪性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight童年的记忆2023 中国行:广告真没白做财富自由之塔山阻击战大模型RAG问答技术架构及核心模块回顾:从Embedding、prompt-embedding到Reranker分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!AI早知道|Meta推出V-JEPA模型;英伟达首次公开超级计算机EosAI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid62、63、长篇民国小说《永泰里》第十三章 螳螂捕蝉(1)&(2)hé bàng?hé bèng?【荐】《中国国家地理》旗下《博物》杂志中科院专家护航 有趣 靠谱!全澳最烂房挂牌出售,露台濒临坍塌!中介坦言:卖这栋房只为提升业务技能晚讯 |FDA宣布调查突破性癌症疗法CAR-T、中科院与科睿唯安发布《2023研究前沿》刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法用大模型帮程序员找Bug,中科院剖析102篇论文总结出这些方案美中关系谈不上对等之二----世界的一大麻烦是中国以为能够超越美国《魅羽活佛》第359章 天煞孤星NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMambaCVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解中国科大第八期科学文化沙龙 | 中科院科学传播研究中心重磅!10043重现!中科院川大电子科大等受影响!留学更难了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。