Redian新闻
>
ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP

ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP

公众号新闻

©作者 | 韩聪

单位 | 美团


针对开放字典的语义分割任务,目前常用的方法有两种 coupled one-pass(例如 OpenSeg)和 decoupled multi-pass(例如 SimBaseline, ZegFormer, OVSeg 等),这两者的结构图可以分别对应图 1(a) 和 (b)。



耦合 (coupled) 方式直接在可见类别上训练特征提取器并得到 class-agnostic masks,然后得到基于区域的分类特征,但特征的泛化性无法保证。解耦 (decoupled) 方式利用 Maskformer/SAM 等得到 class-agnostic masks,然后将生成的 mask 和预训练的视觉语言模型(CLIP 等)结合,从而完成分割任务。


这种方法在使用过程中利用了对齐的视觉-语言特征,能够保证特征的泛化性;但解耦方式中对同一张图片的多张 masks 都需要分别叠加到原图后才能经过 CLIP,带来了巨大的计算量。总的来说,one-pass 的方法相比 multi-pass 具有计算高效的优势,但解耦 (decoupled) 方法耦合 (coupled) 方法具有更强的泛化性。我们考虑能否将两者结合起来,使用 decoupled one-pass 方法(图1(c)),使模型既拥有强大的泛化性能,又能够高效计算。

论文标题:
Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network

论文地址:

https://arxiv.org/abs/2304.01198

代码地址:

https://github.com/CongHan0808/DeOP




本文方法


在该任务中,我们认为使用预训练的视觉语言模型 (CLIP) 来保证视觉和文本特征的对齐是非常必要的,因此我们会保留预训练的 CLIP 模型,然而直接将 masks 和经过 CLIP 的视觉特征结合进行分类效果又很差。为解决这一问题,本文提出 decoupled one-pass network,可以将 masks 作用于改进 CLIP 得到的视觉特征获取分类特征,能够在性能上超越现有方法,同时在推理速度上有 4-7 倍的提升。 


本文首先提出了 Generalized Patch Severance (GPS) 方法,通过改进 CLIP 视觉模型,获得更适合分割任务的视觉特征,能够直接将 masks 和视觉特征融合,获取良好的分类特征。Generalized Patch Severance 是针对分割任务,对 CLIP 视觉模型进行的改进,是完全 training-free,可以和所有的提取 mask 的模型结合,比如 Mask2former、SAM、MaskDINO 等,更好的 mask 分割模型,也会获得更好的分类结果。 


在此基础上,本文又提出可训练的网络结构 Classification Anchor Learning (CAL),使用 masks 作为引导,并添加可学习网络,从 CLIP 的视觉特征中获取更多的有助于分类的信息。 


本文提出方法的整体结构如图所示:





实验结果


open-vocabulary 设定下,数据集内划分 seen/unseen 类别结果:



在跨数据集设定下,实验结果:



可视化分割效果:



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵移民生活(14)王老师和他的洋弟子ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测​ACL 2023 | ProPETL:一种高效的Parameter-Efficient迁移学习方法ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型父母该不该给孩子们银行账户的密码?ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布阿大提出:视听分割合成新数据集和声音图像分割新网络ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构主要说书法,不时打打岔ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViSCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023🔴🟢🟡求分享做酱肉包的馅的方法&分享个苹果手机功能以表感谢。俄乌战况14ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 OralICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS86篇!近3年顶会上的语义分割重磅论文CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & APICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收ICCV 2023 | CLIP驱动的器官分割和肿瘤检测通用模型5091 血壮山河之武汉会战 黄广战役 23ICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角马可?奥勒留:受爱戴的真正的哲学家皇帝
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。