Redian新闻
>
分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像

分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】SAD是第一个使用SAM直接利用渲染后的深度图提取几何信息的模型。 


本月初,Meta推出的一款可以「分割一切」的模型Segment Anything Model (SAM) 已经引起了广泛的关注。


今天,我们向大家介绍一款名为「Segment Any RGBD(SAD)」的机器学习模型。


与以往所有使用SAM的工具的不同之处在于,SAD读入的图片可以是经过渲染之后的深度图,让SAM直接根据几何信息来分割图像。


该项目是由Visual Intelligence Lab@HKUST, HUST, MMLab@NTU, Smiles Lab@XJTU和NUS的同学完成的。如果大家觉得这个项目有意思的话,请大家多多star~


演示程序链接:https://huggingface.co/spaces/jcenaa/Semantic_Segment_AnyRGBD

代码链接:https://github.com/Jun-CEN/SegmentAnyRGBD



简介


人类可以从深度图的可视化中自然地识别物体,所以研究人员首先通过颜色映射函数将深度图([H,W])映射到RGB空间([H,W,3]),然后将渲染的深度图像输入 SAM。


与RGB图像相比,渲染后的深度图像忽略了纹理信息,而侧重于几何信息。


以往基于 SAM 的项目里SAM 的输入图像都是 RGB 图像, 该团队是第一个使用 SAM 直接利用渲染后的深度图提取几何信息的。


下图显示了具有不同颜色图函数的深度图具有不同的 SAM 结果。



模型流程图如下图所示,作者提供了两种选择,包括将 RGB 图像或渲染的深度图像输入到 SAM进行分割,在每种模式下,用户都可以获得Semantic Mask(一种颜色代表一个类别)和带有类别的 SAM  Mask。



以输入为深度图为例子进行说明。首先通过颜色映射函数将深度图([H,W])映射到RGB空间([H,W,3]),然后将渲染后的深度图送入SAM进行分割。


同时使用OVSeg对RGB图进行zero-shot语义分割,只需要输入一系列候选类别的名称即可完成类别识别。然后每一个SAM的mask的类别会根据当前mask里面的点的语义分割结果进行投票,选择点数最多的类别当成当前mask的类别。


最终输出可视化有两种形式,一种是Semantic mask,即一种颜色对应一种类别;另一种是SAM mask with classes,即输出的mask仍然是SAM的mask,并且每一个mask都有类别。并且可以根据深度图将2D的结果投影到3D space进行可视化。


对比效果


作者将RGB送入SAM进行分割与将渲染后的深度图送入SAM进行分割进行了对比。


  • RGB图像主要表示纹理信息,而深度图像包含几何信息,因此RGB图像比渲染的深度图像色彩更丰富。在这种情况下,SAM 为 RGB 输入提供的掩码比深度输入多得多,如下图所示。


  • 渲染的深度图像减轻了 SAM 的过分割。例如,桌子在RGB图像上被分割成四个部分,其中一个在语义结果中被分类为椅子(下图中的黄色圆圈)。相比之下,桌子在深度图像上被视为一个整体对象并被正确分类。人的头部的一部分在RGB图像上被分类为墙壁(下图中的蓝色圆圈),但在深度图像上却被很好地分类。


  • 距离很近的两个物体在深度图上可能被分割为一个物体,比如红圈中的椅子。在这种情况下,RGB 图像中的纹理信息对于找出对象比较关键。

  

Demo




作者表示,希望SAD模型能够带来更多的启发和创新,也期待着反馈和建议。让我们一起探索这个神奇的机器学习世界吧!


参考资料:
https://github.com/Jun-CEN/SegmentAnyRGBD




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTACV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻分割一切又一力作!北京智源提出通用分割模型SegGPT用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型5030 血壮山河之武汉会战 九江战役 5《花心》最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述国民警卫队会保卫特朗普吗?重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换陌上花开1034 时光静好与君语|南洋理工大学物理博士,高校教师,温和安静Offer捷报 l 新加坡南洋理工大学 金融科技 Offer+1!祝贺来自美本Top80的常青藤学子斩获梦校录取!喜报!新国立、爱丁堡、南洋理工、港城市…|背景提升学员Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星分割一切还不够,还要检测一切、生成一切,SAM二创开始了分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下人类最终将毁于AI南洋理工教授:学生成绩预测与影响因素分析|收获一作论文与导师推荐信!比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻双非,考研失败,我跟随南洋理工教授发表国际一作论文助力留学申请!喜报!新国立、南洋理工、港大、KCL、港城市…|背景提升学员(古詩詞英譯) 梅花 - 王安石〔宋代〕DragGAN第一作者Xingang Pan,正式加入南洋理工,出任助理教授!喜报!南洋理工、港中文、UCL、哥大、NUS、曼大…|背景提升学员视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。