Redian新闻
>
ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP

ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP

公众号新闻

©作者 | 韩聪

单位 | 美团


针对开放字典的语义分割任务,目前常用的方法有两种 coupled one-pass(例如 OpenSeg)和 decoupled multi-pass(例如 SimBaseline, ZegFormer, OVSeg 等),这两者的结构图可以分别对应图 1(a) 和 (b)。



耦合 (coupled) 方式直接在可见类别上训练特征提取器并得到 class-agnostic masks,然后得到基于区域的分类特征,但特征的泛化性无法保证。解耦 (decoupled) 方式利用 Maskformer/SAM 等得到 class-agnostic masks,然后将生成的 mask 和预训练的视觉语言模型(CLIP 等)结合,从而完成分割任务。


这种方法在使用过程中利用了对齐的视觉-语言特征,能够保证特征的泛化性;但解耦方式中对同一张图片的多张 masks 都需要分别叠加到原图后才能经过 CLIP,带来了巨大的计算量。总的来说,one-pass 的方法相比 multi-pass 具有计算高效的优势,但解耦 (decoupled) 方法耦合 (coupled) 方法具有更强的泛化性。我们考虑能否将两者结合起来,使用 decoupled one-pass 方法(图1(c)),使模型既拥有强大的泛化性能,又能够高效计算。

论文标题:
Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network

论文地址:

https://arxiv.org/abs/2304.01198

代码地址:

https://github.com/CongHan0808/DeOP




本文方法


在该任务中,我们认为使用预训练的视觉语言模型 (CLIP) 来保证视觉和文本特征的对齐是非常必要的,因此我们会保留预训练的 CLIP 模型,然而直接将 masks 和经过 CLIP 的视觉特征结合进行分类效果又很差。为解决这一问题,本文提出 decoupled one-pass network,可以将 masks 作用于改进 CLIP 得到的视觉特征获取分类特征,能够在性能上超越现有方法,同时在推理速度上有 4-7 倍的提升。 


本文首先提出了 Generalized Patch Severance (GPS) 方法,通过改进 CLIP 视觉模型,获得更适合分割任务的视觉特征,能够直接将 masks 和视觉特征融合,获取良好的分类特征。Generalized Patch Severance 是针对分割任务,对 CLIP 视觉模型进行的改进,是完全 training-free,可以和所有的提取 mask 的模型结合,比如 Mask2former、SAM、MaskDINO 等,更好的 mask 分割模型,也会获得更好的分类结果。 


在此基础上,本文又提出可训练的网络结构 Classification Anchor Learning (CAL),使用 masks 作为引导,并添加可学习网络,从 CLIP 的视觉特征中获取更多的有助于分类的信息。 


本文提出方法的整体结构如图所示:





实验结果


open-vocabulary 设定下,数据集内划分 seen/unseen 类别结果:



在跨数据集设定下,实验结果:



可视化分割效果:



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
主要说书法,不时打打岔一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 Oral移民生活(14)王老师和他的洋弟子ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS马可?奥勒留:受爱戴的真正的哲学家皇帝5091 血壮山河之武汉会战 黄广战役 23父母该不该给孩子们银行账户的密码?Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP​ACL 2023 | ProPETL:一种高效的Parameter-Efficient迁移学习方法来分享几套穿搭~ Clean Fit & 一衣多穿ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023ICCV 2023 | CLIP驱动的器官分割和肿瘤检测通用模型ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角ICCV 2023 Oral | CLIP-LIT将CLIP用于无监督背光图像增强ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!86篇!近3年顶会上的语义分割重磅论文🔴🟢🟡求分享做酱肉包的馅的方法&分享个苹果手机功能以表感谢。ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVISICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式阿大提出:视听分割合成新数据集和声音图像分割新网络CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。