Redian新闻
>
​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

公众号新闻

©作者 | 亓鲁

单位 | 加州大学尔湾分校


稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在 Adobe 旗下的 Photoshop 等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体分割任务 [1] 被提出,作为评估模型泛化能力的一种统一标准。 

在本文中,High-Quality Entity Segmentation 对分割问题进行了全新的探索,从以下三个方面取得了显著的改进: 

1. 更优的分割质量:正如上图所示,EntitySeg 在数值指标和视觉表现方面都相对于 SAM 有更大的优势。令人惊讶的是,这种优势是基于仅占训练数据量千分之一的数据训练取得的。 

2. 更少的高质量数据需求:相较于 SAM 使用的千万级别的训练数据集,EntitySeg 数据集仅含有 33,227 张图像。尽管数据量相差千倍,但 EntitySeg 却取得了可媲美的性能,这要归功于其标注质量,为模型提供了更高质量的数据支持。 

3. 更一致的输出细粒度(基于实体标准):从输出的分割图中,我们可以清晰地看到 SAM 输出了不同粒度的结果,包括细节、部分和整体(如瓶子的盖子、商标、瓶身)。然而,由于 SAM 需要对不同部分的人工干预处理,这对于自动化输出分割的应用而言并不理想。相比之下,EntitySeg 的输出在粒度上更加一致,并且能够输出类别标签,对于后续任务更加友好。 

在阐述了这项工作对稠密分割技术的新突破后,接下来的内容中介绍 EntitySeg 数据集的特点以及提出的算法 CropFormer。

论文链接:
https://arxiv.org/abs/2211.05776

代码链接:

https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

主页链接:

http://luqi.info/entityv2.github.io/

根据 Marr 计算机视觉教科书中的理论,人类的识别系统是无类别的。即使对于一些不熟悉的实体,我们也能够根据相似性进行识别。因此,不考虑类别的实体分割更贴近人类识别系统,不仅可以作为一种更基础的任务,还可以辅助于带有类别分割任务 [2]、开放词汇分割任务 [3] 甚至图像编辑任务 [4]。与全景分割任务相比,实体分割将“thing”和“stuff”这两个大类进行了统一,更加符合人类最基本的识别方式。




EntitySeg数据集

由于缺乏现有的实体分割数据,作者在其工作 [1] 使用了现有的 COCO、ADE20K 以及 Cityscapes 全景分割数据集验证了实体任务下模型的泛化能力。然而,这些数据本身是在有类别标签的体系下标注的(先建立一个类别库,在图片中搜寻相关的类别进行定位标注),这种标注过程并不符合实体分割任务的初衷——图像中每一个区域均是有效的,哪怕这些区域无法用言语来形容或者被 Blur 掉,都应该被定位标注。

此外,受限于提出年代的设备,COCO 等数据集的图片域以及图片分辨率也相对单一。因此基于现有数据集下训练出的实体分割模型也并不能很好地体现实体分割任务所带来的泛化能力。最后,原作者团队在提出实体分割任务的概念后进一步贡献了高质量细粒度实体分割数据集 EntitySeg 及其对应方法。EntitySeg 数据集是由 Adobe 公司 19 万美元赞助标注完成,已经开源贡献给学术界使用。

项目主页:

http://luqi.info/entityv2.github.io/
数据集有三个重要特性:
1. 数据集汇集了来自公开数据集和学术网络的 33,227 张图片。这些图片涵盖了不同的领域,包括风景、室内外场景、卡通画、简笔画、电脑游戏和遥感场景等。
2. 标注过程在无类别限制下进行的掩膜标注,并且可以覆盖整幅图像。
3. 图片分辨率更高,标注更精细。如上图所示,即使相比 COCO 和 ADE20K 数据集的原始低分辨率图片及其标注,EntitySeg 的实体标注更全且更精细。
最后,为了让 EntitySeg 数据集更好地服务于学术界,11580 张图片在标注实体掩膜之后,以开放标签的形式共标注了 643 个类别。EntitySeg、COCO 以及 ADE20K 数据集的统计特性对比如下:
通过和 COCO 以及 ADE20K 的数据对比,可以看出 EntitySeg 数据集图片分辨率更高(平均图片尺寸 2700)、实体数量更多(每张图平均 18.1 个实体)、掩膜标注更为复杂(实体平均复杂度 0.719)。极限情况下,EntitySeg 的图片尺寸可达到 10000 以上。 
与 SAM 数据集不同,EntitySeg 更加强调小而精,试图做到对图片中的每个实体得到最为精细的边缘标注。此外,EntitySeg 保留了图片和对应标注的原始尺寸,更有利于高分辨率分割模型的学术探索。 
基于 EntitySeg 数据集,作者衡量了现有分割模型在不同分割任务(无类别实体分割,语义分割,实例分割以及全景分割)的性能以及和 SAM 在 zero-shot 实体级别的分割能力。




CropFormer算法框架

除此之外,高分辨率图片和精细化掩膜给分割任务带来了新的挑战。为了节省硬件内存需求,分割模型需要压缩高分辨率图片及标注进行训练和测试进而导致分割质量的降低。为了解决这一问题,作者提出了 CropFormer 框架来解决高分辨率图片分割问题。CropFormer 受到 Video-Mask2Former [5] 的启发, 利用一组 query 连结压缩为低分辨率的全图和保持高分辨率的裁剪图的相同实体。
因此,CropFormer 可以同时保证图片全局和区域细节属性。CropFormer 是根据 EntitySeg 高质量数据集的特点提出的针对高分辨率图像的实例/实体分割任务的 baseline 方法,更加迎合当前时代图片质量的需求。

最后在补充材料中,作者展示了更多的 EntitySeg 数据集以及 CropFormer 的可视化结果。下图为更多数据标注展示:

下图为 CropFormer 模型测试结果:


参考文献

[1] Open-World Entity Segmentation. TAPMI 2022.
[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.
[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.
[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.
[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马上评|外滩大会:更宽的金融,更高的科技《新康定情歌》&《夜太黑》ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!彭博终端有妙招 | BQuant Enterprise演示视频:更快更好的量化投研工具【2023 坛庆】暖场 浪人情歌【热夏生活随笔】 Texas Sunshine 20237.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023ICCV 2023 | 通用数据增强技术,随机量化适用于任意数据模态国内高净值人群调查报告:更年轻,更具全球化视野,更大胆投资......这国航机上杂志看着无语😓!2023.7这应该还是最新一期Texas Sunshine 2023ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViSICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS白宫拒港特首赴美,习将如期参会ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测一日登三峰 2023.07.29SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!LSEG:多元发展的伦敦证券交易所集团 | 交易所系列案例2023H1 ADC药物销售额出炉!Seagen公布Kadcyla联用Tukysa最新3期数据,挑战HER2阳性晚期乳腺癌脑转移ICCV 2023 | CLIP驱动的器官分割和肿瘤检测通用模型ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型红色日记 6.26-6.30不公布数据,或许会得到更准确的数据CVPR、ICCV 2023等顶会论文都在这里了!ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架天气越来越奇怪了ICCV 2023 | 通用数据增强技术!适用于任意数据模态的随机量化美好ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别温哥华只需$15或更少的7个午餐店ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOPICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶车联网联盟CCC:CCC数字钥匙进入汽车的未来白皮书效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图ICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。