ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量
©作者 | 亓鲁
单位 | 加州大学尔湾分校
稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在 Adobe 旗下的 Photoshop 等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体分割任务 [1] 被提出,作为评估模型泛化能力的一种统一标准。
在本文中,High-Quality Entity Segmentation 对分割问题进行了全新的探索,从以下三个方面取得了显著的改进:
1. 更优的分割质量:正如上图所示,EntitySeg 在数值指标和视觉表现方面都相对于 SAM 有更大的优势。令人惊讶的是,这种优势是基于仅占训练数据量千分之一的数据训练取得的。
2. 更少的高质量数据需求:相较于 SAM 使用的千万级别的训练数据集,EntitySeg 数据集仅含有 33,227 张图像。尽管数据量相差千倍,但 EntitySeg 却取得了可媲美的性能,这要归功于其标注质量,为模型提供了更高质量的数据支持。
3. 更一致的输出细粒度(基于实体标准):从输出的分割图中,我们可以清晰地看到 SAM 输出了不同粒度的结果,包括细节、部分和整体(如瓶子的盖子、商标、瓶身)。然而,由于 SAM 需要对不同部分的人工干预处理,这对于自动化输出分割的应用而言并不理想。相比之下,EntitySeg 的输出在粒度上更加一致,并且能够输出类别标签,对于后续任务更加友好。
在阐述了这项工作对稠密分割技术的新突破后,接下来的内容中介绍 EntitySeg 数据集的特点以及提出的算法 CropFormer。
代码链接:
主页链接:
根据 Marr 计算机视觉教科书中的理论,人类的识别系统是无类别的。即使对于一些不熟悉的实体,我们也能够根据相似性进行识别。因此,不考虑类别的实体分割更贴近人类识别系统,不仅可以作为一种更基础的任务,还可以辅助于带有类别分割任务 [2]、开放词汇分割任务 [3] 甚至图像编辑任务 [4]。与全景分割任务相比,实体分割将“thing”和“stuff”这两个大类进行了统一,更加符合人类最基本的识别方式。
EntitySeg数据集
此外,受限于提出年代的设备,COCO 等数据集的图片域以及图片分辨率也相对单一。因此基于现有数据集下训练出的实体分割模型也并不能很好地体现实体分割任务所带来的泛化能力。最后,原作者团队在提出实体分割任务的概念后进一步贡献了高质量细粒度实体分割数据集 EntitySeg 及其对应方法。EntitySeg 数据集是由 Adobe 公司 19 万美元赞助标注完成,已经开源贡献给学术界使用。
项目主页:
CropFormer算法框架
最后在补充材料中,作者展示了更多的 EntitySeg 数据集以及 CropFormer 的可视化结果。下图为更多数据标注展示:
下图为 CropFormer 模型测试结果:
参考文献
[6] Segment Anything. ICCV 2023.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者