Redian新闻
>
ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测

ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割】微信交流群

张浩 投稿
转载自:量子位(QbitAI)

ICCV论文收录名单近日「开奖」,其中就包括这个港科大一作的图像分割模型!

它能以更低的训练成本实现更好的效果,哪怕遇到未知物体也能迎刃而解。

此外据作者介绍,它还是第一个拥有基于box prompts的分割能力的AI模型,比Meta的SAM还要早实现

A Simple Framework for Open-Vocabulary Segmentation and Detection
代码(已开源):
https://github.com/IDEA-Research/OpenSeeD
论文:https://arxiv.org/abs/2303.08131

这篇论文第一版预印本的发布时间是今年的3月14日(北京时间15日),比SAM早了20多天

那么,这个图像分割模型,究竟效果如何,又是如何做到的呢?

(以下内容由投稿者提供)

下图展示了这个名为OpenSeeD的模型的输出效果:

它既可以做经典的实例、语义以及全景分割,又可以分割出从未见过的物体类别,还可以基于检测框分割出从未见过的物体并给出正确的类别。

工作原理

OpenSeeD是一个简单而有效的开放词表图像分割的框架,也可以理解为MaskDINO扩展到开放词表的版本。

如下图所示,过去已经有不少工作结合大量的图像文本对实现开词表检测或者分割,而OpenSeeD是第一个把物体检测数据和全景分割数据结合在一起联合训练的工作,并且证明是可行有效的,填补了这一领域的空白。

除此以外,为了扩展语义的丰富程度,研究团队引入O365(365类)检测数据和COCO分割(133类)一起训练(不同于MaskDINO使用O365预训练)。

由于使用了不同的数据集,研究团队需要解决了二者之间的数据和任务的差异,以便两个任务和词表兼容。

整体上,OpenSeeD的工作原理如下图所示,两种差异也是通过这一方式解决的:

图中左半部分完成的是通用场景分割。

为了解决基础模型的任务差别(O365只有前景,而COCO有前景和背景),研究团队把前景和背景的预测进行解耦。

右半部分是条件预测部分,可以通过GT box预测图像遮罩。

在这一部分中,团队通过为O365打标签为了解决数据差异问题。

最终,该团队的方法在多个开放词表任务上取得了与当前最佳方法x-decoder相当甚至更好的效果,相比x-decoder用了4M人工标注的图像描述数据,OpenSeeD只用了0.57M的检测数据。

另外,研究团队还发现,即使只用5k的O365数据,也可以在开放词表任务上达到类似的效果。

这说明OpenSeeD需要的是丰富的视觉概念(种类数),而不一定是很大的数据量(个体数)。

低成本,高效果

OpenSeeD作为一个强大的开集分割方法,可以分割出大量从未见过的物体,在各项开集和闭集指标上都取得了最佳成绩。

而且通过引入O365检测任务来提升开集语义能力,OpenSeeD的训练成本也相对其他开集方法更低。

下表展示了OpenSeeD的测试结果:

通过较少的检测数据,研究团队发现在多个零训练样本分割任务上达到或超越了现有最佳方法X-Decoder,GLIPv2等,尤其在SeginW任务(大量陌生类别)上取得了远超X-Decoder的效果。

除此以外,当团队微调到其他数据集时,OpenSeeD都表现出了远超参照标准的性能。

在COCO和ADE20K的全景分割以及ADE20K和Cityscapes的实例分割上,OpenSeeD的性能也与现有最佳模型相当。

点击进入—>【图像分割】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

图像分割和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割《那就是我》苇絮演唱冠军 | ACL2023 WASSA Workshop“交互式情感、同理心和个性识别”评测赛题方案 - 哈工大SCIR克罗地亚斯普利特(Split),1700年历史7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新对抗蒸馏框架LionICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架大丽花,大写特写wow! Tom Hanks Presidential Harvard Speech Motivational InspiratICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP人为什么会衰老 (2023俄乌战况11ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击牧羊美女​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干2023 樱花之约(四)琵琶湖和夜樱ICCV 2023 | 对于极暗场景RAW图像去噪,你是否还在被标定折磨?来试试LED!少量数据、快速部署!贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控如何给LP更早实现收益?医学图像分割、MRI、病变检测……“AI+医疗”近期有哪些值得读的顶会论文?中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成Tour de l’ile de Montréal 2023ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型收割人类 III 之第十七章 黑洞记忆(5)ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收阿大提出:视听分割合成新数据集和声音图像分割新网络苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTACVPR 2023 医学图像分割论文大盘点
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。