Redian新闻
>
Mamba再下一城!RSMamba:遥感图像分类性能SOTA!

Mamba再下一城!RSMamba:遥感图像分类性能SOTA!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和遥感】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文将为大家介绍“RSMamba: Remote Sensing Image Classification with State Space Model”(基于状态空间模型的遥感图像分类),性能SOTA,代码已开源。


  • Title:

    RSMamba: Remote Sensing Image Classification with State Space Model

  • Paper: 

    https://arxiv.org/abs/2403.19654

  • Code: 

    https://github.com/KyanChen/RSMamba

01




/导读/

遥感图像分类是各种遥感理解任务的基础,卷积神经网络(CNNs)和Transformers的最新进展显著提高了分类精度。然而,遥感场景分类仍然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性。全图像的理解能力可以为场景区分提供更精确的语义线索。本文介绍了RSMamba,这是一种新颖的遥感图像分类架构。RSMamba基于状态空间模型(SSM),并采用高效、硬件感知设计的Mamba实现,它整合了全局感受野和线性复杂度建模的优点。为了缓解原始Mamba只能建模因果序列,不能适应二维图像数据的缺点,文中提出了一种动态多路径激活机制来增强Mamba处理非因果数据的能力。值得注意的是,RSMamba保持了原始Mamba的内在建模机制,但仍在多个遥感图像分类数据集上表现出优越的性能。

02




/引言/

遥感场景的复杂性和多样性,加上时空分辨率的变化,给自动遥感图像分类带来了重大挑战。深度学习具有自主从数据中挖掘有效特征并以端到端的方式输出分类概率的能力。在网络架构方面,主要可以分为CNNs和注意力网络。前者通过二维卷积操作逐层抽象图像特征。后者通过注意力机制捕获整个图像局部区域之间的长距离依赖性,从而实现更强大的语义响应。一定程度上,遥感图像分类精度严重依赖模型具备处理复杂多样的遥感场景和变化的时空分辨率影响的能力。基于注意力机制的Transformer能够从整个图像的有价值区域获取响应,为这些挑战提供了最佳解决方案。然而,随着输入序列长度的增加或网络的加深,其注意力计算的平方复杂性在建模效率和内存使用方面带来了重大挑战。状态空间模型(SSM)可以通过状态转换建立长距离依赖关系,并通过卷积计算执行这些转换,从而实现近线性复杂性。Mamba通过将时变参数引入到简单的SSM中并进行硬件优化,对训练和推理都非常高效。Vim和VMamba已经成功地将Mamba引入到二维视觉领域,在多个任务中实现了性能和效率的良好平衡。
本文介绍了RSMamba,一种用于遥感图像分类的高效状态空间模型。RSMamba基于Mamba实现,但引入了动态多路径激活机制,以缓解Mamba只能在单一方向上建模,且对位置不敏感的限制。值得注意的是,RSMamba被设计为保留原始Mamba块的内在建模机制,只在块外引入非因果和位置敏感的改进。具体来说,图像被划分为重叠的补丁令牌,添加位置编码形成序列。并构造了三个路径副本,即前向、反向和随机。这些序列通过使用共享参数的Mamba块建模以包含全局关系,然后通过不同路径的线性映射进行激活。
本文的主要贡献可以总结如下:
i) 提出了RSMamba,一种基于状态空间模型(SSM)的高效全局特征建模方法用于遥感图像分类。该方法在表征能力和效率方面具有显著优势,可以作为处理大规模遥感图像解释的可行解决方案。
ii) 具体来说,引入了一个位置敏感的动态多路径激活机制,以缓解原始Mamba仅限于建模因果序列,并对空间位置不敏感的限制。
iii) 在三个不同的遥感图像分类数据集进行了全面的实验,结果表明,RSMamba比其他基于CNN和Transformers的分类方法表现出显著优势。

03




/方法/

State Space Model


状态方程:

离散化:

RSMamba



RSMamba将2-D图像转化为1-D序列,并使用多路径SSM编码器捕获长距离依赖关系,如图所示。给定一幅图像,使用一个二维卷积核将局部区域映射到像素级的特征嵌入。随后,特征图被展平成1-D序列。为了保留图像内部的相对空间位置关系,引入位置编码,整个过程如下,

RSMamba并未像ViT那样使用[CLS]标记来聚合全局表示。相反,该一维序列被输入到多个动态多路径激活的Mamba块中,用于建模长距离依赖关系。随后,通过对序列平均池化得到类别预测所需的密集特征。这个过程可以迭代地描述如下,

Dynamic Multi-path Activation

原始的Mamba用于对1-D序列进行因果建模,为了增强其对2-D数据的处理能力,引入了一个动态多路径激活机制。重要的是,这种机制为了保留原始Mamba块的结构,仅在块的输入和输出上操作。具体来说,复制了三份输入序列,建立了三个不同的路径,即前向路径、反向路径和随机路径,并利用一个参数共享的普通Mamba混合器分别对这三个序列中的标记之间的依赖关系进行建模。随后,我们将序列中的所有标记恢复到正确的顺序,并使用一个线性层来压缩序列信息,从而建立了三个路径的门控。然后,这个门被用来激活三种不同信息流的表示,如上图所示。第i个块的过程如下所述,

Model Architecture

04




/实验/

为了评估所提出方法的效果,在三个不同的遥感数据集上进行了广泛的实验:UC Merced土地利用数据集(UC Merced),AID,和NWPU-RESISC45数据集(RESISC45)。每个数据集都包含不同的地物类别和图像数量。

05




/结论/

本文引入了一种新的状态空间模型用于遥感图像分类,称为RSMamba。RSMamba同时利用了CNN和Transformer的优点,特别是它们的线性复杂性和全局感受野。RSMamba引入了一个动态多路径激活机制,以减轻原始Mamba中固有的单向建模和位置不敏感的限制。RSMamba保持了Mamba的内部结构,并提供了灵活性,可以轻松扩展参数以适应各种应用场景。在三个不同的遥感图像分类数据集上进行的实验评估表明,RSMamba可以超越基于CNN和Transformer的其他最先进的分类方法,具有作为下一代视觉基础模型的主干网络的巨大潜力。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和遥感图像交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和遥感微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者遥感+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上海七宝古镇,乡味浓浓【送你$3000入住金!LEED 银级认证波士顿2023新建高级公寓!位于South End| NEU/伯克利/Emerson】同济大学章小清/刘玲/房玉江团队Cell Metabolism发现胞内pH-Smad5信号通路控制胰岛素加工与分泌新机制Higress 全新 Wasm 运行时,性能大幅提升China’s ‘Supernanny’ Stirs Controversy With Ultra-Harsh Methodshé bàng?hé bèng?北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个tokenCVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析【七绝】 似水呵有无? (八庚) 两首转发|2024 Emerson College FIRST青年电影展主动放映 - 观影报名最后一天!宇宙人(1471期)国家文物局:全面启动文物卫星遥感执法监测;美太空部队与NGA的商业ISR之争正在加剧Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTAMamba和遥感微信群来了!下一代遥感——透视遥感?目标检测和图像分割微信群来了!Mamba再下一城!VideoMamba:高效视频理解的状态空间模型【Downtown轻奢公寓】345 Harrison【Emerson/Suffolk/Chinatown步行可达】[聚焦]"房价已经抄底"!RBC:加拿大房市亮"绿灯"的关键时机尚未到来!宇宙人(1477期)长二丁火箭成功发射遥感四十二号01星;航天科工发布“谛听S10”工业级四足机器人;小米SU7今日首批交付AI早知道|OpenAI推出新的图像检测分类器;Hugging Face开源机器人代码库Mamba和遥感微信群成立!美国人真会玩!辣妹酒吧"SM特殊喂酒"还收费"抽大嘴巴子"一个假期豪赚27万美元。2023年我国新发射遥感卫星合集ASML前CTO,加入ASMI"房价已经抄底"!RBC:加拿大房市亮"绿灯"的关键时机尚未到来!西江月 冬日观潮冲击500亿美元GMV目标,TikTok Shop全球扩张再下一城!冰岛戈扎瀑布(godafoss),弯弯月牙医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集[干货] person 的复数是 people 还是 persons?恆大香港覆滅:中國的一劑猛藥《体外诊断试剂分类目录》及《关于实施〈体外诊断试剂分类目录〉有关事项的通告》解读目标检测和图像分割微信群成立!「春夏100%纯棉四件套」杀疯了!11款氛围感图案,ins风一键get~~
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。