Redian新闻
>
中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和Transformer】交流群

An. 投稿
转载自:量子位(QbitAI)

比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!

最近中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。

相关论文预印本现已发表。

以下内容由投稿者提供

《Fast Segment Anything》

代码:https://github.com/CASIA-IVA-Lab/FastSAM

论文:https://arxiv.org/abs/2306.12156

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽,其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础模型。

意义与动机

SAM 的出现带动了 “分割⼀切”(Segment Anything)任务的发展。这⼀任务由于其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案,进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段,通过引⼊⼈⼯先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看,FastSAM 也证明了基于大模型产生高质量数据,通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

多种交互⽅式

FastSAM目前共支持三种交互方式。

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式,可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例,只需对缺陷⼤致位置进⾏框选,即可准确检测出物体缺陷。

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示,FastSAM可以准确分割出不同颜⾊的⼩狗。

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同,FastSAM融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割⼀切」模式下,SAM的速度会受到均匀点提⽰数量的影响,⽽ FastSAM 由于结构的特点,运⾏时间不随点提⽰数量的增加⽽增加,这使得它成为「分割⼀切」模式的更好选择。

同时,由于 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出,尽管FastSAM的参数明显较少(只有68M),但它也能产⽣很⾼质量的边缘检测结果

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。

物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]

可视化结果

SA-1B 分割结果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

下游应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。

参考⽂献
[1] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.
[2] Li J, Yang T, Ji W, et al. Exploring denoised cross-video contrast for weakly-supervised temporal action localization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

论文地址:
https://arxiv.org/abs/2306.12156

GitHub项目页:
https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace DEMO:
https://huggingface.co/spaces/An-619/FastSAM

Replicate demo:
https://replicate.com/casia-iva-lab/fastsam

点击进入—>【图像分割和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


图像分割和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PANet、DANet、FastFCN、OneFormer…你都掌握了吗?一文总结图像分割必备经典模型(三)用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型【七绝】 园中株 (五歌)GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议影响因子如坐过山车,先上涨10倍后有又大降8分,就算IF有10+也未能进中科院TOP!《山恋》&《浮生记》ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2对公司经营与财务状况进行快速分析的技巧《怎样选择成长股》比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容新加坡科技设计大学提出FLACUNA:提高LLMs问题解决能力!三句话生成CPU!中科院ChipGPT攻克AI芯片设计?代码量减少近10倍卷爆CV!46篇分割一切模型(SAM)二创论文大盘点哥巳不再是当年的哥,姐已不再是当年的姐又一个!本拿比Metrotown项目取消:终止协议,退还定金和利息!ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型国内最新量子计算机真机亮相!求解加速超100倍,创始团队来自清华中科院等澳洲人全世界最蠢...吗?比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩分割一切模型SAM首篇全面综述:28页、200+篇参考文献比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 2.4K+星ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收重大突破,中科院宣布!比英伟达快1.5到10倍,AI芯片要变天?汤姆●琼斯—一个弃儿的个人史01.04B(重译)7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器阿大提出:视听分割合成新数据集和声音图像分割新网络「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像“演唱会门票”应该说concerts' tickets还是concert tickets?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。